Strategy: Cold, Warm, Hot Data Storage & Data Warehouse vs Data Lake Architecture

Ya por aquí hemos hablado, y mucho, de #Data-Pipeline o #Data-Streaming. Por ejemplo fue el caso del Banco ING Direct, donde a partir de una Pipeline podían extraer el fruto y conectar su proceso de datos basado en #Real-Time con su reporting o sus bases de datos más operacionales. También hemos hablado de CQRS, que no es lo mismo que la construcción de Pipeline basadas en #Real-Time sinó, basadas en un método para optimizar escrituras en bases de datos (write) y leerlas (read). [Leer más]

Oozie vs Airflow, Open Source Data Pipeline

Anteriormente ya hemos hablado sobre sistemas de ingestión de datos, como es Apache NiFi o, también, de transformación de la información, como Apache Flink. Pero hoy venimos con sistemas de Data Pipeline o, también conocidos como Workflows. Hablaremos sobre Oozie y Airflow. Oozie Oozie es un sistema para la gestión de flujos de trabajo de código abierto escrito en Java para sistemas Hadoop. Oozie se centra, mayormente, en la flexibilidad y en la creación de flujos de trabajo complejos, permitiéndonos tener trabajos activos por tiempo, por eventos o tener disponibilidad de datos según las situaciones en que la disponibilidad de los mismos pueda ser impredecible. [Leer más]