Ciberseguridad
Data Governance
Transformación Digital
StartUp
Blockchain
Internet of Things
Data Streaming
Docker
AWS

Micro Clúster Kubernetes en Ubuntu (MicroK8s)

Hoy contaremos como desplegar un “Clúster” Kubernetes en Ubuntu y lo haremos mediante su opción de “MicroK8s” (Kubernetes for workstations and appliances). Instalando Kubernetes MicroK8s Para ello, el primer paso será asegurarnos que tenemos instalado “snap” en nuestro Ubuntu: sudo apt install snapd. Una vez lo tengamos, podemos proceder a instalarlo con snap install microk8s --classic. MicroK8s es una instalación mínima de Kubernetes diseñada para funcionar localmente. Para asegurarnos que ha quedado correctamente instalado lanzamos el comando: microk8s. [Leer más]

Strategy: Cold, Warm, Hot Data Storage & Data Warehouse vs Data Lake Architecture

Ya por aquí hemos hablado, y mucho, de #Data-Pipeline o #Data-Streaming. Por ejemplo fue el caso del Banco ING Direct, donde a partir de una Pipeline podían extraer el fruto y conectar su proceso de datos basado en #Real-Time con su reporting o sus bases de datos más operacionales. También hemos hablado de CQRS, que no es lo mismo que la construcción de Pipeline basadas en #Real-Time sinó, basadas en un método para optimizar escrituras en bases de datos (write) y leerlas (read). [Leer más]

Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]

InfluxDB: BigData con series temporales

InfluxDB, o mejor dicho, InfluxData es una plataforma muy completa para el tratamiento de grandes cantidades de datos, desde su recolección hasta su análisis final. Actualmente ya es una alternativa muy interesante para trabajar en escenarios de BigData pudiendo conseguir una gran optimización en su almacenamiento y en el acceso. El Stack Stack de InfluxData se construye alrededor de InfluxDB para manejar grandes cantidades de información con series temporales. Esta base de datos de series de tiempo proporciona soporte para nuestras necesidades de análisis de métricas (DevOps Monitoring, sensores IoT, análisis en tiempo real,…). [Leer más]

AWS LocalStack: Develop and test your cloud apps offline

La llegada del Cloud supuso un antes y un después, pero también es cierto, complicó un tanto la vida para poder validar los correctos funcionamientos de nuestras aplicaciones ya que, teníamos que replicar entornos, por ejemplo de Integración, elevando sus costes. Pues bien, el proyecto LocalStack es una fantástica solución para “simular” nuestro AWS Cloud en local, sea instalado localmente o bien desplegado en su versión Docker. Requirements Para poder ejecutar cualquier tipo de interacción con nuestro LocalStack tendremos que tener instaladas las AWS CLI (Command Line Interface), veamos: [Leer más]

Emotion as a Service... analyzing human expressions and emotions

La emociones como servicio (Emotion as a Service). ¿Suena raro? ¡Quizás si! Pero ya es totalmente posible y abre, frente a nosotros, un nuevo paradigma de interpretación de nuestra realidad permitiéndonos analizar las expresiones humanas, como la emoción, de forma sencilla y muy rentable. ¿Cómo podemos hacerlo? Por ejemplo a partir de grabaciones en vídeo o audios o con “simples” imágenes. Mediante los médios anteriores, podremos reconocer a las personas que expresan emociones y obtener importantes métricas muy poderosas. [Leer más]

Data Science project lifecycle

La gestión de proyectos, que hemos hablado por aquí bastante, no es cosa fácil… pero lo es todavía menos cuando tenemos frente a nosotros proyectos de “Data Science”. Por ello hemos desarrollado un pequeño framework para poder afrontar, con éxito, nuestro proyecto “Data Science”, veamos: Definition of Project El Sprint 0. ¿Cuántas veces nuestras expectativas vs lo entregado coinciden?. Aunque se esté trabajando con Metodología Agile, por ejemplo, no quiere decir que planifiquemos bien, que pensemos bien, etc… y es por eso de la importancia de trabajar cuanto antes y lo mejor posible nuestro Sprint 0. [Leer más]

Apache Airflow: Batch Processing platform

Airflow es una plataforma de Batch Processing donde podremos crear, programar y supervisar dichos flujos de trabajo y todo mediante DAGs. Airflow ejecuta las tareas en un conjunto de workers mientras continúa con las dependencias especificadas. Dispone de una más que completa línea de comandos que permite realizar configuraciones un tanto complejas en los DAGs, como también de una correcta interfaz de usuario que facilita la visualización de las pipelines que se están ejecutando en producción, para su monitoreo y aplicar resolución de problemas cuando sea necesario. [Leer más]

Faust: Stream Processing for Python

Faust es una librería de procesamiento en flujo distribuido que ha sido diseñada y construida para manejar el procesamiento de grandes cantidades de datos en tiempo real. Se inspira en Kafka Streams, pero adopta un enfoque ligeramente diferente en el procesamiento de los flujos. Faust está escrito en Python 3, aprovechando así sus notables mejoras de rendimiento y se integra con su librería asyncio (Asynchronous I/O), escrita para facilitar los procesos asíncronos de alto rendimiento. [Leer más]