SQL Database Modeler Tools

Muchas veces, cuando nos ponemos a diseñar modelos de datos en SQL, la complejidad de los esquemas visuales hace que no tengamos una idea clara de las relaciones, entiendades o campos que forman nuestro entramado. Si bien es cierto que, herramientas como MySQL Workbench nos facilitan la vida, pero es muy interesante ir hacia otra tipología de herramientas, multi base de datos y que, visualmente o mediante simples comandos JSON, YAML, etc… nos permitan relacionar entidades, etc… hoy veremos los casos de:SQLDBM y de DBDiagram. [Leer más]

Nuclio: Data Science Pipeline with Serverless Functions

Nuclio.io, es una interesante plataforma de código abierto (Open Source), gestionada sin servidores (Serverless), orientada a minimizar tanto gastos de desarrollo y mantenimiento como a automatizar la implementación de aplicaciones basadas en la ciencia de datos o #DataScience. Podemos ejecutar un entorno de Nuclio.io muy rápidamente, mediante #Docker: docker run -p 8070:8070 -v /var/run/docker.sock:/var/run/docker.sock -v /tmp:/tmp nuclio/dashboard:stable-amd64 Aunque si lo preferimos, en su GitHub podemos encontrar los pasos para ejecutarlo en Kubernetes. [Leer más]

Web Scraping usando Python sobre Jupyter notebooks

Scraping es una técnica, la cual podemos utilizar, para hacer barridos de web completas. Por ejemplo la podemos utilizar para descargarnos los metadatos de un Blog, para descargarnos precios de viviendas y/o productos y crear comparativas con dicha información, para descargarnos anuncios, etc… realmente la lista de posibilidades es larga. También es cierto, que muchas web ponen barreras a tal técnica, creando simples “redirect”. Bien, quizás el “Framework” más utilizando para ello es Scrapy, aunque existen otros como, variantes del mismo. [Leer más]

Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]

Faust: Stream Processing for Python

Faust es una librería de procesamiento en flujo distribuido que ha sido diseñada y construida para manejar el procesamiento de grandes cantidades de datos en tiempo real. Se inspira en Kafka Streams, pero adopta un enfoque ligeramente diferente en el procesamiento de los flujos. Faust está escrito en Python 3, aprovechando así sus notables mejoras de rendimiento y se integra con su librería asyncio (Asynchronous I/O), escrita para facilitar los procesos asíncronos de alto rendimiento. [Leer más]

Lenguajes, R, Python y otras filosofías en proyectos de Data

A lo largo de la historia, muchas son las personas que se han preguntado ¿qué va más rápido, esto o lo otro? Bien, pues no vamos a ser menos, y la vamos a retorcer un poquito más: ¿Qué va a salirnos más a cuenta, R o Python? Primero nos centraremos en los aspectos más directos derivados de la pregunta, es decir, cual de los dos la tiene más corta (la carga computacional, para los mal pensados). [Leer más]