Nuclio: Data Science Pipeline with Serverless Functions

Nuclio.io, es una interesante plataforma de código abierto (Open Source), gestionada sin servidores (Serverless), orientada a minimizar tanto gastos de desarrollo y mantenimiento como a automatizar la implementación de aplicaciones basadas en la ciencia de datos o #DataScience. Podemos ejecutar un entorno de Nuclio.io muy rápidamente, mediante #Docker: docker run -p 8070:8070 -v /var/run/docker.sock:/var/run/docker.sock -v /tmp:/tmp nuclio/dashboard:stable-amd64 Aunque si lo preferimos, en su GitHub podemos encontrar los pasos para ejecutarlo en Kubernetes. [Leer más]

Strategy: Cold, Warm, Hot Data Storage & Data Warehouse vs Data Lake Architecture

Ya por aquí hemos hablado, y mucho, de #Data-Pipeline o #Data-Streaming. Por ejemplo fue el caso del Banco ING Direct, donde a partir de una Pipeline podían extraer el fruto y conectar su proceso de datos basado en #Real-Time con su reporting o sus bases de datos más operacionales. También hemos hablado de CQRS, que no es lo mismo que la construcción de Pipeline basadas en #Real-Time sinó, basadas en un método para optimizar escrituras en bases de datos (write) y leerlas (read). [Leer más]

Data Science project lifecycle

La gestión de proyectos, que hemos hablado por aquí bastante, no es cosa fácil… pero lo es todavía menos cuando tenemos frente a nosotros proyectos de “Data Science”. Por ello hemos desarrollado un pequeño framework para poder afrontar, con éxito, nuestro proyecto “Data Science”, veamos: Definition of Project El Sprint 0. ¿Cuántas veces nuestras expectativas vs lo entregado coinciden?. Aunque se esté trabajando con Metodología Agile, por ejemplo, no quiere decir que planifiquemos bien, que pensemos bien, etc… y es por eso de la importancia de trabajar cuanto antes y lo mejor posible nuestro Sprint 0. [Leer más]