Introducción a Cloudera DataFlow

Hace ya unos cuantos meses que, quizás algunos, nos quedamos casi helados cuando se publicó el anuncio de compra por parte de Cloudera de Hortonworks. La empresa, “naciente”, se focalizo en ser líder indiscutible en Cloud de datos y en ofrecer una carta de productos que abarcase un sin fin de sposibilidades. Una de las áreas tecnológicas más prometedoras de esta fusión que ya tenía un alto potencial de crecimiento y que está a punto de crecer aún más es la plataforma Data-in-Motion llamada Cloudera DataFlow (CDF). [Leer más]

Stack Apache Kafka + Zookeeper ejecutando Data Pipeline en Cluster de Apache NiFi

Hoy venimos con un artículo de lujo en el que construiremos un Stack entero con: Apache Kafka Apache Zookeeper Apache NiFi en Cluster Kafka Manager Bien, tanto de Apache Kafka como de Apache NiFi hemos hablado un montón, pero hoy el artículo está totalmente focalizado a tenerlo como chuleta para lanzar un Docker Compose con un Stack totalmente funcional y en pocos minutos. Docker Compose para un Stack de “Apache Kafka + Zookeeper + Apache NiFi” Para controlar, tanto Apache Kafka como la funcionalidad del Cluster de Apache NiFi, utilizaremos Apache Zookeeper. [Leer más]

La Biblia de Apache NiFi y Apache NiFi Registry

De Apache NiFi hemos hablado mucho, mucho, mucho… pero nunca es suficiente. Es una de las grandes soluciones a nuestros males y hoy, haremos un resúmen de lo más destacado. Veamos: Apache Nifi multiple processor Una de las ventajas de Apache NiFi es que dispone de múltiples procesadores para tratar flujos de información. Por ejemplo: JSON: SplitJson, EvaluateJsonPath, ConvertJSONToAvro AVRO: SplitAvro, ExtractAvroMetadata, ConvertAvroToJSON TEXT: SplitText, ExtractText, RouteText Pero, tenemos una série de procesadores que, símplemente, son mágicos como: [Leer más]

Real-Time: Data Streaming

Desde hace ya un tiempo que vamos hablando sobre #Data-Streaming, publicando casos reales como el de ING Direct. Aunque hoy queremos hacer una “review” general para ir enfocando próximos capítulos ya que, más que nunca, está de “moda” el tener Real-Time en nuestras plataformas de analítica. Por ejemplo en el caso anterior, del Banco ING, podemos ver como las transacciones online que están realizando sus clientes, rápidamente, están disponibles para sus equipos de Customer Support, vital para una eficiente atención al cliente. [Leer más]

Los Beneficios (con seguridad) de los Metadatos (Apache Atlas + Ranger + Kafka)

¿Qué pasa cuando queremos aplicar seguridad a nuestros Datos? Por lo general podemos aplicar muchos tipos como también, distintas capas de seguridad. Por ejemplo lo más frecuente sería una validación mediante OpenID para los usuarios y mediante API Key para los usos programáticos, con una siguiente capa mediante validación IAM para el uso entre infraestructuras o componente más “físicos” y podemos continuar extendiendo mucho más allá, no quiero profundizar ahora mismo con ello… mi pregunta, mejorada, es la siguiente: ¿Qué pasa cuando queremos aplicar seguridad a nuestros Datos que se consumem mediante subscripción? [Leer más]

Instalación y Configuración de Hortonworks Sandbox en Docker

Muchas veces nos proponemos usar las soluciones PaaS de nuestros variados y distintos proveedores de Cloud, pero, es interesante pensar en que las soluciones pueden ser agnósticas del mismo proveedor, como por ejemplo: cuando tenemos la necesidad de montar un Clúster de Hadoop. Una buena solución es montarlo en Docker, ya que en caso de salida de un proveedor de Cloud, podremos mover muy fácilmente nuestros contenedores y levantarlo allá donde vayamos muy rápidamente, como también, poderlo tener en Alta Disponibilidad levantando contenedores en más de un proveedor de Cloud, etc… [Leer más]