Oozie vs Airflow, Open Source Data Pipeline

Anteriormente ya hemos hablado sobre sistemas de ingestión de datos, como es Apache NiFi o, también, de transformación de la información, como Apache Flink. Pero hoy venimos con sistemas de Data Pipeline o, también conocidos como Workflows. Hablaremos sobre Oozie y Airflow. Oozie Oozie es un sistema para la gestión de flujos de trabajo de código abierto escrito en Java para sistemas Hadoop. Oozie se centra, mayormente, en la flexibilidad y en la creación de flujos de trabajo complejos, permitiéndonos tener trabajos activos por tiempo, por eventos o tener disponibilidad de datos según las situaciones en que la disponibilidad de los mismos pueda ser impredecible. [Leer más]

Introduction to CQRS (segregando la tipología de uso y del dato)

En anteriores post hemos hablado sobre Data streaming como también de escalar bases de datos. Pero hoy vengo a darte una introducción, clara y concisa, sobre CQRS y su aplicación; utilizando un tanto los posts mencionados anteriormente. CQRS es un método para optimizar escrituras en bases de datos (write) y leerlas (read). Hoy en día, algunas más que otras, las empresas están ya acostumbradas a trabajar con grandes volúmenes de datos y, por lo tanto, con grandes bases de datos. [Leer más]

Democratización de datos, Data Self-Service con Druid + Imply.io

Tanto las herramientas de Bi (Business Intelligence), más tradicionales, como las más novedosas y nacidas a partir de la “irrupción” del BigData como son por ejemplo: Tableau, PowerBI, entre muchas otras… han transformado fundamentalmente la forma en que operamos los datos las organizaciones. Los directivos de todas las industrias ahora están utilizando la tecnología de análisis Big Data para una amplia gama de procesos, objetivos y necesidades de gestión. Y las aplicaciones potenciales de las herramientas de BI modernas son prácticamente infinitas, ya que han irradiado en casi todos los aspectos de la gestión operativa y la supervisión estratégica como, se han podido beneficiar de conocimientos más potentes y rápidos. [Leer más]

Kafka data structures, Zookeeper Offsets

Desde la versión 0.9 (current: 1.1.0), Kafka proporciona la capacidad de almacenar y distinguir los cambios sucedidos en los respectivos “topic” (offsets) directamente en Kafka en lugar de depender del Zookeeper. Los datos en Zookeeper, aunque son similares a un típico sistema de directorios, pueden tener datos asociados a los nodos. Estos datos pueden variar desde datos de configuración, detalles de estado, marcas de tiempo, etc… que ayudan a Zookeeper a hacer lo que mejor sabe hacer. [Leer más]

High Performance Computing in the AWS Cloud (low cost)

De tipologías de Arquitectura de infraestructura hay muchas pero, así de entrada, podemos diferenciar entre: “High Performance” y “High Availability”. Que por cierto, podemos implementar las dos en una misma, por ejemplo, nuestro post de hoy. Vamos a ver una arquitectura, bastante económica, para poder tener el siguien esquema lógico: Acceso de los usuarios > Validaciones > Retorno de datos > Ingestión de información (Evento) > Transformación de la Información >Indexación > Visualización (Explotación). [Leer más]

Distributed Real-Time Stream Processing

Ya en un anterior post comentamos un caso de Arquitectura en “Streams” no nativa, es decir, obteniendo datos transaccionales o operativos los convertiamos en “Streams” mediante una Pipeline para poder analizarlos mediante un sistema Distribuido. Hoy, presentamos un sistema Distributed Real-Time Stream Processing nativo, veamos dos ejemplos de arquitectura, entre los cuales, uno nos será muy próximo. Real Time Analytics Architecture En el siguiente Diagrama tenemos el caso que vamos a explicar: [Leer más]

Data Ingestion & Distribution by Apache NiFi

¿Podemos poner en un ring de boxeo dos tipologías de arquitecturas como son la ingestión de datos mediante BPMs o con eventos? Creo no es acertado ponerlas a competir pero si, podemos explicarlas por separado y afrontar, según nuestras necesidades y/o posibilidades, cual de las arquitecturas podemos llevar a cabo. También es cierto que muchas veces nos lo encontraremos dado, por ejemplo cuando tenemos delante una aplicación o servicio más tradicional, sea un ERP, un CRM, etc… aquí será muy complejo el poder llegar a un proceso de generación de eventos ya que, seguramente, deberíamos afrontar una transformación casi por completo de la aplicación. [Leer más]

MongoDB en AWS, Arquitectura rápida de Data Sharding

MongoDB, quizás, es una de las bases de datos NoSQL más conocidas. El siguiente post quiere dar una pincelada rápida a una construcción simple, escalable y en formato [sharding](https://en.wikipedia.org/wiki/Shard_(database_architecture) en AWS. AWS dispone de una template de AWS Cloud Formation para hacernos la vida un poco más simple, pero veamos primero que partes tendría la Arquitectura, para así poder entenderla mucho mejor. Primero tendremos que obviar, no es recomendable, la seguridad más perimetral. [Leer más]

Aplicando Inbound Marketing en CRMs (Customer relationship management) (II)

Hace unos días que publicamos un anterior post donde se exponía, muy brevemente, esta nueva forma de potenciar nuestros CRMs, sean Custom o versiones Comerciales. En éste nuevo post de hoy, el enfoque será distinto y tiene la intención de hacerlo más práctico, quizás las dos imágenes adjuntas no son el 100% de la idea pero espero nos permitan hacernos una buena idea. Veamos: Imaginemos que somos una empresa (Empresa X), ya sea grande, mediana o pequeña, y que nuestro Core es la atención al cliente, seguramente, es muy posible, tengamos un alto coste económico debido al número de personas que lo forman como, también, en licencias de soluciones CRM o parecidas. [Leer más]

Aplicando Inbound Marketing en CRMs (Customer relationship management)

Muchas veces, el Inbound Marketing “sólo” lo aplicamos en el lado cliente, por decirlo así y nos olvidamos que son acciones 360º. Es por ello que es muy recomendable empezar a pensar en estrategias 360 que contemplen, también, aquellas aplicaciones internas de gestión y operación. Como, por ejemplo, son los CRMs. Frente a ésto también tenemos varios dilemas ya que algunas aplicaciones son muy costosas y muchas empresas no pueden afrontar sus implantaciones o bien, se descartan por tener impactos muy elevados o por, querer tus propias herramientas. [Leer más]