Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]

Apache Airflow: Batch Processing platform

Airflow es una plataforma de Batch Processing donde podremos crear, programar y supervisar dichos flujos de trabajo y todo mediante DAGs. Airflow ejecuta las tareas en un conjunto de workers mientras continúa con las dependencias especificadas. Dispone de una más que completa línea de comandos que permite realizar configuraciones un tanto complejas en los DAGs, como también de una correcta interfaz de usuario que facilita la visualización de las pipelines que se están ejecutando en producción, para su monitoreo y aplicar resolución de problemas cuando sea necesario. [Leer más]