Data Ingestion & Distribution by Apache NiFi

¿Podemos poner en un ring de boxeo dos tipologías de arquitecturas como son la ingestión de datos mediante BPMs o con eventos? Creo no es acertado ponerlas a competir pero si, podemos explicarlas por separado y afrontar, según nuestras necesidades y/o posibilidades, cual de las arquitecturas podemos llevar a cabo. También es cierto que muchas veces nos lo encontraremos dado, por ejemplo cuando tenemos delante una aplicación o servicio más tradicional, sea un ERP, un CRM, etc… aquí será muy complejo el poder llegar a un proceso de generación de eventos ya que, seguramente, deberíamos afrontar una transformación casi por completo de la aplicación. [Leer más]

Los Beneficios (con seguridad) de los Metadatos (Apache Atlas + Ranger + Kafka)

¿Qué pasa cuando queremos aplicar seguridad a nuestros Datos? Por lo general podemos aplicar muchos tipos como también, distintas capas de seguridad. Por ejemplo lo más frecuente sería una validación mediante OpenID para los usuarios y mediante API Key para los usos programáticos, con una siguiente capa mediante validación IAM para el uso entre infraestructuras o componente más “físicos” y podemos continuar extendiendo mucho más allá, no quiero profundizar ahora mismo con ello… mi pregunta, mejorada, es la siguiente: ¿Qué pasa cuando queremos aplicar seguridad a nuestros Datos que se consumem mediante subscripción? [Leer más]

Reference (Simple) Architectures con Traefik, Kubernetes y API Kong Gateway

Hacerlo todo complicado es algo, por desgracia, muy natural. Pero deberíamos tender a hacerlo a lo fácil y así asegurarnos que nuestros proyectos tienen un % mucho más elevado de éxito y no al contrario. Es por ello que quiero plantear éste post para intentar resolver ciertas dudas que me han llegado frente al diseño de nuestras arquitecturas en AWS. La idea no va más allá de construir una “mínima” arquitectura, pensando en dos tipologías de acceso: programático o humano, y con dos tipos de consumidores: usuarios internos (empleados) o usuarios externos (clientes). [Leer más]

Democratización de datos, complementando una Estrategia Data Centric

Muchas de las empresas y más las llamadas Data Centric pueden tener estrategias de Gobierno del Dato (de sus datos) pero, seguramente con toda probabilidad, no tendrán sus datos democratizados. ¿Qué entendemos por “Democratización de datos”?. Lo miraré de resolver con otra pregunta: ¿Cuántos de los nuevos productos o nuevas releases nacen mal o más tarde de lo previsto porque no se conocen bien las fuentes origen de los datos que requerimos? [Leer más]

Una Estrategia Data Centric para nuestra Transformacion Digital

Hablar de Transformación Digital es ya algo común y un poco cansino. En otros post he podido comentar la necesidad, by ADN, de las empresas a estar totalmente orientadas a la gestión eficiente de sus datos, que no, orientadas a los datos. Debemos ver los datos como un instrumento más y no nuestra perdición. Cierto es que uno de los problemas más frecuentes y, también, unos de los que genera mayores ineficiencias es la falta de organización en torno a los datos. [Leer más]

Un SuperSensor IoT en nuestra casa (Smart Homes)

Empezamos con una colección de Post para explicar ejemplos de aplicación del IoT, es por ello que no hay mejor manera que empezar con un SuperSensor. A continuación podemos verlo en marcha: Este sensor puede monitorear casi toda la actividad en nuestro hogar, detectando la fluctuación de temperatura, el uso de electricidad, los sonidos, el movimiento y la duración de los eventos. Podríamos decir que es una perfecta base para construir hogares verdaderamente “inteligentes”, donde las distintas actividades que realizamos son rastreadas, controladas remotamente y automatizadas según creamos convenientemente y así lo configuremos. [Leer más]

MongoDB en AWS, Arquitectura rápida de Data Sharding

MongoDB, quizás, es una de las bases de datos NoSQL más conocidas. El siguiente post quiere dar una pincelada rápida a una construcción simple, escalable y en formato [sharding](https://en.wikipedia.org/wiki/Shard_(database_architecture) en AWS. AWS dispone de una template de AWS Cloud Formation para hacernos la vida un poco más simple, pero veamos primero que partes tendría la Arquitectura, para así poder entenderla mucho mejor. Primero tendremos que obviar, no es recomendable, la seguridad más perimetral. [Leer más]

DataOps & Data As A Service (or DaaS)

Cuando una organización decide hacer un paso al frente y afrontar el Gobierno de los Datos (Data Governance) tiene que saber/reconocer, de entrada, que lo más normal será no tener el control de los datos sinó, al contrario, que la complejidad se apoderará de ella (si no se ha apoderado ya). Es por eso que debemos afrontar una gestión del cambio 360 y saber que tendremos muchos frentes abiertos. En la siguiente imagen podremos ver un resumen gráfico de la complejidad que supone pero, a su vez, de lo necesario que es también. [Leer más]

Diseño y best practice de Modelos de Datos.

Entrados ya en los modelos de datos basados en Database NoSQL, que, resumen, no requieren un Modelo de Datos “Tradicional” no olvidaremos que, no siempre, se puede tirar hacia estas arquitecturas. Por ejemplo para los sistemas más operacionales, anteriormente llamados “Transaccionales”, deberemos tener un claro Modelo de Datos. Que sin duda alguna será nuestro lastre para mucho tiempo… si no lo hacemos bien. ¿Modelos de Bases de Datos? Es por ello que deberemos seguir algunos de los diseños y sus “normas” para poder crear buenos Modelos de Datos, podemos tener estos ejemplos: [Leer más]

Instalación y Configuración de Hortonworks Sandbox en Docker

Muchas veces nos proponemos usar las soluciones PaaS de nuestros variados y distintos proveedores de Cloud, pero, es interesante pensar en que las soluciones pueden ser agnósticas del mismo proveedor, como por ejemplo: cuando tenemos la necesidad de montar un Clúster de Hadoop. Una buena solución es montarlo en Docker, ya que en caso de salida de un proveedor de Cloud, podremos mover muy fácilmente nuestros contenedores y levantarlo allá donde vayamos muy rápidamente, como también, poderlo tener en Alta Disponibilidad levantando contenedores en más de un proveedor de Cloud, etc… [Leer más]