Introducción a Cloudera DataFlow

Introducción a Cloudera DataFlow

Hace ya unos cuantos meses que, quizás algunos, nos quedamos casi helados cuando se publicó el anuncio de compra por parte de Cloudera de Hortonworks. La empresa, “naciente”, se focalizo en ser líder indiscutible en Cloud de datos y en ofrecer una carta de productos que abarcase un sin fin de sposibilidades. Una de las áreas tecnológicas más prometedoras de esta fusión que ya tenía un alto potencial de crecimiento y que está a punto de crecer aún más es la plataforma Data-in-Motion llamada Cloudera DataFlow (CDF). Se trata de una capacidad clave que seguramente responderá a las necesidades de su combinada base de clientes en las áreas de las arquitecturas de streaming en tiempo real y IoT.

Cloudera DataFlow (CDF)

Podéis observar, que una parte importante de la plataforma es Apache NiFi, por aquí hemos hablado mucho, mucho, mucho… como, también, Apache Kafka. Podríamos decir que es el 50% de la “fiesta” y su gran característica, es que Cloudera DataFlow (CDF) está construido con tecnología 100% Open Source.

Los aspectos clave de la plataforma Cloudera DataFlow (CDF), son:

  • Administración de Datos Edge, por ejemplo es posible configurar cientos de agentes MiNiFi para permitir la recolección de datos Edge, filtrado de contenido, enrutamiento, etc… Esto permite enfrentarse a casos de uso complejos y distribuidos, como la conexión de cientos de tiendas minoristas, o la obtención de datos de miles de sensores de servicios públicos (dispositivos IoT) desde el punto de vista del consumidor.

  • Gestión de flujos, gracias a la facilidad de Apache NiFi podremos crear flujos visuales para la creación de ingesta/transformación de datos complejos con facilidad de arrastrar y soltar. Apache NiFi cuenta con más de 260 procesadores preconstruidos, Cloudera DataFlow (CDF) va a permitirnos utilizar casos de uso de datos a gran escala, alto volumen y alta velocidad con simplicidad y facilidad.

  • Procesamiento de secuencias, también, podremos administrar y procesar múltiples secuencias de datos en tiempo real utilizando el sistema de procesamiento de secuencias distribuido más avanzado: Apache Kafka. Procesar millones de mensajes en tiempo real por segundo para alimentar nuestro Data Lake o para análisis de streaming inmediato.

  • Streaming Analytics, analizar millones de flujos de datos en tiempo real utilizando técnicas avanzadas como agregaciones, ventanas basadas en el tiempo, filtrado de contenido, etc…, para generar información clave e inteligencia procesable para análisis predictivos y prescriptivos. Cloudera DataFlow (CDF) es una buena plataforma de streaming que ofrece una selección de 3 soluciones de análisis de streaming diferentes: Apache Storm, Kafka Streams y Apache Spark Streaming. Podéis descubrir mas leyendo post de la categoria #data-streaming.

Autor: Joakim Vivas

comments powered by Disqus