Democratización de datos, Data Self-Service con Druid + Imply.io

Democratización de datos, Data Self-Service con Druid + Imply.io

Tanto las herramientas de Bi (Business Intelligence), más tradicionales, como las más novedosas y nacidas a partir de la “irrupción” del BigData como son por ejemplo: Tableau, PowerBI, entre muchas otras… han transformado fundamentalmente la forma en que operamos los datos las organizaciones. Los directivos de todas las industrias ahora están utilizando la tecnología de análisis Big Data para una amplia gama de procesos, objetivos y necesidades de gestión. Y las aplicaciones potenciales de las herramientas de BI modernas son prácticamente infinitas, ya que han irradiado en casi todos los aspectos de la gestión operativa y la supervisión estratégica como, se han podido beneficiar de conocimientos más potentes y rápidos.

Pero, muchos estudios, a partir de casos de uso han demostrado que, para la gran mayoría de los adoptantes, los analistas de negocios dedican buena parte de su tiempo a preparar los datos para el análisis, y parece que nunca tienen la información que necesitan. La preparación de datos es un factor crítico, aunque a menudo pasado por alto en el proceso de análisis y debería ser requerimiento obligatorio (mandatory) para poder obtener el máximo valor y, así, extraer lo máximo a las soluciones de análisis y ayudar a las organizaciones a tomar más y mejores decisiones o, como mínimo, más significativas y oportunas.

Ya en un anterior post planteamos la idea de la “Democratización de datos” en las empresas para tener una estratégia “Data Centric” y hoy exponemos una solución para poder cumplirlo y, a su vez, poder facilitar la preparación de los datos siguiendo un modelo de Self-Service Analytics. Para ello usaremos dos componentes principales:

Druid Architecture

  • Druid es un data store de código abierto diseñado para consultas OLAP basadas en streams y eventos.
  • Imply.io que es una solución de análisis de alto rendimiento para almacenar, consultar y visualizar datos operativos (fue creado por los creadores de Druid).

NOTA: Una de las claras ventajas de utilizar Imply.io para la visualización de los datos es que dispone de un número importante de conectores, por ejemplo: podremos conectarlo a Kafka para tener analítica en tiempo real de cualquier de nuestros topics.

Imply.io Datasets

Druid en Docker

Cómo decíamos anteriormente, Druid es un data store, por lo tanto podremos conectarlo a distintas fuentes de datos para que él vaya generando sus datasources própios. Por ejemplo podemos ver en la imagen siguiente nuestro caso de uso, que hemos conectado una fuente de datos de productos de Banca.

Druid Datasources

Para poder lanzar Druid podemos hacerlo de forma muy simple y rápida mediante Docker: docker run --name druid -d -p 8082:8082 -p 8081:8081 druidio/example-cluster y mediante navegador podremos acceder a su website de administración: http://localhost:8081.

Imply.io en Docker

Una de las claras ventajas de Imply.io es su simplicidad para crear una visualización, ya sea un Data Cube o bien un Dashboard. Podemos ver en la siguiente imagen la creación de un Data Cube mediante “Drag and Drop”:

Imply.io Data Cubes

Anteriormente ya hemos visualizado la simplicidad que supone agregar un nuevo Dataset, una vez escogido el orígen, Imply.io agregará un nuevo datasource en Druid y, mediante el supervisor interno que tiene, que hemos parametrizado (opcional) cuando la creación del Dataset, se realizará un procesos de sincronización de datos automáticamente para que cuando creemos nuestros Data Cube o Dashboard puedan tener acceso, casi, en tiempo real a los mismos.

Para poder lanzar Imply.io podemos hacerlo de forma muy simple y rápida mediante Docker: docker run -p 8081-8110:8081-8110 -p 8200:8200 -p 9095:9095 -d --name imply imply/imply y mediante navegador podremos acceder al panel de admin de Imply.io y empezar a crear nuestro pivot: http://localhost:9095

NOTA: El docker anterior también desplega Druid, en caso que simplemente queramos hacer una PoC, podemos desplegar sólo éste contenedor y tendremos tanto Druid como Imply.io.

Autor: Joakim Vivas

comments powered by Disqus