Introducción a Cloudera DataFlow

Hace ya unos cuantos meses que, quizás algunos, nos quedamos casi helados cuando se publicó el anuncio de compra por parte de Cloudera de Hortonworks. La empresa, “naciente”, se focalizo en ser líder indiscutible en Cloud de datos y en ofrecer una carta de productos que abarcase un sin fin de sposibilidades. Una de las áreas tecnológicas más prometedoras de esta fusión que ya tenía un alto potencial de crecimiento y que está a punto de crecer aún más es la plataforma Data-in-Motion llamada Cloudera DataFlow (CDF). [Leer más]

Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]