Oozie vs Airflow, Open Source Data Pipeline

Anteriormente ya hemos hablado sobre sistemas de ingestión de datos, como es Apache NiFi o, también, de transformación de la información, como Apache Flink. Pero hoy venimos con sistemas de Data Pipeline o, también conocidos como Workflows. Hablaremos sobre Oozie y Airflow. Oozie Oozie es un sistema para la gestión de flujos de trabajo de código abierto escrito en Java para sistemas Hadoop. Oozie se centra, mayormente, en la flexibilidad y en la creación de flujos de trabajo complejos, permitiéndonos tener trabajos activos por tiempo, por eventos o tener disponibilidad de datos según las situaciones en que la disponibilidad de los mismos pueda ser impredecible. [Leer más]

Instalación y Configuración de Hortonworks Sandbox en Docker

Muchas veces nos proponemos usar las soluciones PaaS de nuestros variados y distintos proveedores de Cloud, pero, es interesante pensar en que las soluciones pueden ser agnósticas del mismo proveedor, como por ejemplo: cuando tenemos la necesidad de montar un Clúster de Hadoop. Una buena solución es montarlo en Docker, ya que en caso de salida de un proveedor de Cloud, podremos mover muy fácilmente nuestros contenedores y levantarlo allá donde vayamos muy rápidamente, como también, poderlo tener en Alta Disponibilidad levantando contenedores en más de un proveedor de Cloud, etc… [Leer más]