Introducción a Cloudera DataFlow

Hace ya unos cuantos meses que, quizás algunos, nos quedamos casi helados cuando se publicó el anuncio de compra por parte de Cloudera de Hortonworks. La empresa, “naciente”, se focalizo en ser líder indiscutible en Cloud de datos y en ofrecer una carta de productos que abarcase un sin fin de sposibilidades. Una de las áreas tecnológicas más prometedoras de esta fusión que ya tenía un alto potencial de crecimiento y que está a punto de crecer aún más es la plataforma Data-in-Motion llamada Cloudera DataFlow (CDF). [Leer más]

Stack Apache Kafka + Zookeeper ejecutando Data Pipeline en Cluster de Apache NiFi

Hoy venimos con un artículo de lujo en el que construiremos un Stack entero con: Apache Kafka Apache Zookeeper Apache NiFi en Cluster Kafka Manager Bien, tanto de Apache Kafka como de Apache NiFi hemos hablado un montón, pero hoy el artículo está totalmente focalizado a tenerlo como chuleta para lanzar un Docker Compose con un Stack totalmente funcional y en pocos minutos. Docker Compose para un Stack de “Apache Kafka + Zookeeper + Apache NiFi” Para controlar, tanto Apache Kafka como la funcionalidad del Cluster de Apache NiFi, utilizaremos Apache Zookeeper. [Leer más]

La Biblia de Apache NiFi y Apache NiFi Registry

De Apache NiFi hemos hablado mucho, mucho, mucho… pero nunca es suficiente. Es una de las grandes soluciones a nuestros males y hoy, haremos un resúmen de lo más destacado. Veamos: Apache Nifi multiple processor Una de las ventajas de Apache NiFi es que dispone de múltiples procesadores para tratar flujos de información. Por ejemplo: JSON: SplitJson, EvaluateJsonPath, ConvertJSONToAvro AVRO: SplitAvro, ExtractAvroMetadata, ConvertAvroToJSON TEXT: SplitText, ExtractText, RouteText Pero, tenemos una série de procesadores que, símplemente, son mágicos como: [Leer más]

Running a cluster with Apache Nifi and Docker

Sobre Apache NiFi hemos hablado mucho, ya sea en ejemplos de #DataStreaming ejecutados en RealTime o bien, en la construcción de Data Pipeline más simples. En todos los casos anteriores, nuestro Apache NiFi, era “Single node”. El post de hoy es lanzarlo mediante su opción de Cluster y mediante Docker. Veamos: Preparando el docker-compose.yml Lo primero será construir nuestro “docker-compose.yml” con todo aquello requerido. Como por ejemplo añadiendo un ZooKeeper para la gestión de la información entre los nodos de forma automatizada y, luego, la configuración de Apache NiFi. [Leer más]

Real-Time: Data Streaming

Desde hace ya un tiempo que vamos hablando sobre #Data-Streaming, publicando casos reales como el de ING Direct. Aunque hoy queremos hacer una “review” general para ir enfocando próximos capítulos ya que, más que nunca, está de “moda” el tener Real-Time en nuestras plataformas de analítica. Por ejemplo en el caso anterior, del Banco ING, podemos ver como las transacciones online que están realizando sus clientes, rápidamente, están disponibles para sus equipos de Customer Support, vital para una eficiente atención al cliente. [Leer más]

Oozie vs Airflow, Open Source Data Pipeline

Anteriormente ya hemos hablado sobre sistemas de ingestión de datos, como es Apache NiFi o, también, de transformación de la información, como Apache Flink. Pero hoy venimos con sistemas de Data Pipeline o, también conocidos como Workflows. Hablaremos sobre Oozie y Airflow. Oozie Oozie es un sistema para la gestión de flujos de trabajo de código abierto escrito en Java para sistemas Hadoop. Oozie se centra, mayormente, en la flexibilidad y en la creación de flujos de trabajo complejos, permitiéndonos tener trabajos activos por tiempo, por eventos o tener disponibilidad de datos según las situaciones en que la disponibilidad de los mismos pueda ser impredecible. [Leer más]

Pull data from Twitter and push data to Elasticsearch using Apache NiFi

En este post vamos a realizar un Workflow de conexión a Twitter, a partir de su API, para poder guardarlos, posteriormente, en un Elasticsearch mediante Apache NiFi. La estructura del Workflow es muy simple, tendrá cuatro pasos, los siguientes: Descargar los tweets mediante la conexión a la API de Twitter. Estructurar el fichero de salida de la API a un tipo JSON. Enrutar el fichero al destino aplicando un filtro (opcional). [Leer más]

Data Transformation Pipelines (Apache Nifi, Flink, Kafka y MongoDB) (Parte 1)

Ya en anteriores artículos hemos explicado la importancia de tratar con datos organizados ya que el Big Data como tal, ¡no sirve de nada!. Para ello existen los llamados procesos de transformación (Data Transformation) que consisten, entre otros, a convertir ese Big Data en un Smart & Small Data Concept. Para ello podemos utilizar muchas tecnologías, ya anteriormente hemos hablado de FluentD o bien del Stack ELK (Elasticsearch + Logstash + Kibana) como buenas soluciones para poder crear flows de Data Transformation, mejor dicho, Flows envío y agregación de Datos. [Leer más]