GDPR y nueva Gobernanza de Datos

GDPR y nueva Gobernanza de Datos

La Nueva regulación europea sobre la Protección de Datos Personales, la GDPR nos marca muy claramente como se deben obtener, tratar, guardar y destruir estos.

Para ello, las nuevas Arquitecturas de Gobierno del Dato que tienen que moverse dentro de la nueva Regulación, deberán estar totalmente orientadas a la Seguridad de los Datos. Ya no hay separación entre la Arquitectura Big Data, propiamente dicha como aquella Seguridad necesaria para poder cumplir con la Regulación.

A continuación se expone un Diagrama, básico, que está ya dentro de los Marcos estándard para su cumplimiento. Es muy importante diferenciar, muy claramente, entre las Source de entrada o procesos de integración de datos, el posible Data Lake central o repositorio del Sistema de Información y aquellos sistemas que consume los datos o destino.

Data Governance

Podemos diferenciar la Arquitectura en tres grandes bloques, los siguientes:

  • Procesos de integración de datos (Dataflow, Workflow, ETLs, etc…).
  • Master Data Management o Data Lake (como Sistema de Información centralizado).
  • Data Catalog & Security Access Control.

Ya anteriormente pudimos realizar un post donde se explicó un proceso de integración de datos, mediante una Pipeline. Si bien es cierto, en este primer bloque, deberíamos trazar un camino hacia el Data Catalog de la infraestructura ya que, para poder implementar un sistema de seguridad, deberemos poder capturar/obtener aquellos metadatos que, tras un proceso de identificación y tratamiento, nos permita crear una tabla de Entidades superior.

Apache Atlas, solución de la Apache Software Foundation para el Gobierno de los Datos y la gestión de los Metadatos en Clústers de Hadoop, nos permitirá poder hacer esta “tabla” de Entidades madre y cruzar los metadatos para darles un Valor para nuestra Solución.

Apache Ranger, es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop. Junto con Apache Atlas, nos permitiran aplicar las políticas de seguridad para el acceso a los datos. Es decir, podremos convertir aquellos tags, relacionados con los metadatos identificados y trazar el ciclo de vida y uso de los datos.

En el lado del Master Data Management o Data Lake, según nuestra necesidad. Según la Regulación deberemos analizar, previamente, como deberíamos guardar los datos. No es lo mismo un dato para su uso operacional que para su uso analítico o de profiling de usuarios. Por eso, deberemos determinar si aplicar técnicas de anonimización o enmascaramiento. Es un proceso largo que afectará, seguro, a todos los procesos de negocio. Por eso el Clúster de HDFS o, si es más tradicional, de sistemas de datos RDBMS deberá tener los datos securizados y mediante un control de accesos, comentado anteriormente, quien autorice o no el acceso a estos recursos de datos.

La construcción de una Arquitectura de Gobierno de Datos que cumpla con la Regulación no es simple, pero utilizando este esquema podremos hacer una aproximación.

Autor: Joakim Vivas

comments powered by Disqus