Real-Time: Data Streaming

Desde hace ya un tiempo que vamos hablando sobre #Data-Streaming, publicando casos reales como el de ING Direct. Aunque hoy queremos hacer una “review” general para ir enfocando próximos capítulos ya que, más que nunca, está de “moda” el tener Real-Time en nuestras plataformas de analítica. Por ejemplo en el caso anterior, del Banco ING, podemos ver como las transacciones online que están realizando sus clientes, rápidamente, están disponibles para sus equipos de Customer Support, vital para una eficiente atención al cliente. [Leer más]

Oozie vs Airflow, Open Source Data Pipeline

Anteriormente ya hemos hablado sobre sistemas de ingestión de datos, como es Apache NiFi o, también, de transformación de la información, como Apache Flink. Pero hoy venimos con sistemas de Data Pipeline o, también conocidos como Workflows. Hablaremos sobre Oozie y Airflow. Oozie Oozie es un sistema para la gestión de flujos de trabajo de código abierto escrito en Java para sistemas Hadoop. Oozie se centra, mayormente, en la flexibilidad y en la creación de flujos de trabajo complejos, permitiéndonos tener trabajos activos por tiempo, por eventos o tener disponibilidad de datos según las situaciones en que la disponibilidad de los mismos pueda ser impredecible. [Leer más]

Introduction to CQRS (segregando la tipología de uso y del dato)

En anteriores post hemos hablado sobre Data streaming como también de escalar bases de datos. Pero hoy vengo a darte una introducción, clara y concisa, sobre CQRS y su aplicación; utilizando un tanto los posts mencionados anteriormente. CQRS es un método para optimizar escrituras en bases de datos (write) y leerlas (read). Hoy en día, algunas más que otras, las empresas están ya acostumbradas a trabajar con grandes volúmenes de datos y, por lo tanto, con grandes bases de datos. [Leer más]

Data Transformation Pipelines (Apache Nifi, Flink, Kafka y MongoDB) (Parte 1)

Ya en anteriores artículos hemos explicado la importancia de tratar con datos organizados ya que el Big Data como tal, ¡no sirve de nada!. Para ello existen los llamados procesos de transformación (Data Transformation) que consisten, entre otros, a convertir ese Big Data en un Smart & Small Data Concept. Para ello podemos utilizar muchas tecnologías, ya anteriormente hemos hablado de FluentD o bien del Stack ELK (Elasticsearch + Logstash + Kibana) como buenas soluciones para poder crear flows de Data Transformation, mejor dicho, Flows envío y agregación de Datos. [Leer más]