Introducción a Cloudera DataFlow

Hace ya unos cuantos meses que, quizás algunos, nos quedamos casi helados cuando se publicó el anuncio de compra por parte de Cloudera de Hortonworks. La empresa, “naciente”, se focalizo en ser líder indiscutible en Cloud de datos y en ofrecer una carta de productos que abarcase un sin fin de sposibilidades. Una de las áreas tecnológicas más prometedoras de esta fusión que ya tenía un alto potencial de crecimiento y que está a punto de crecer aún más es la plataforma Data-in-Motion llamada Cloudera DataFlow (CDF). [Leer más]

Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]

Apache Airflow: Batch Processing platform

Airflow es una plataforma de Batch Processing donde podremos crear, programar y supervisar dichos flujos de trabajo y todo mediante DAGs. Airflow ejecuta las tareas en un conjunto de workers mientras continúa con las dependencias especificadas. Dispone de una más que completa línea de comandos que permite realizar configuraciones un tanto complejas en los DAGs, como también de una correcta interfaz de usuario que facilita la visualización de las pipelines que se están ejecutando en producción, para su monitoreo y aplicar resolución de problemas cuando sea necesario. [Leer más]