Apache Beam: construyendo Data Pipelines en Python

Apache Beam es una evolución del modelo Dataflow creado por Google para procesar grandes cantidades de datos. Los programas escritos con Apache Beam pueden ejecutarse en diferentes estructuras de procesamiento utilizando un conjunto de IOs diferentes. Ya hemos hablado aquí sobre otros frameworks como Hadoop, Spark, Flink, Google Cloud Dataflow, etc… Pero no ha habido una API unificada que vincule todos estos marcos y fuentes de datos, y proporcione una abstracción de la lógica de la aplicación desde un gran ecosistema de datos. [Leer más]

Faust: Stream Processing for Python

Faust es una librería de procesamiento en flujo distribuido que ha sido diseñada y construida para manejar el procesamiento de grandes cantidades de datos en tiempo real. Se inspira en Kafka Streams, pero adopta un enfoque ligeramente diferente en el procesamiento de los flujos. Faust está escrito en Python 3, aprovechando así sus notables mejoras de rendimiento y se integra con su librería asyncio (Asynchronous I/O), escrita para facilitar los procesos asíncronos de alto rendimiento. [Leer más]

Lenguajes, R, Python y otras filosofías en proyectos de Data

A lo largo de la historia, muchas son las personas que se han preguntado ¿qué va más rápido, esto o lo otro? Bien, pues no vamos a ser menos, y la vamos a retorcer un poquito más: ¿Qué va a salirnos más a cuenta, R o Python? Primero nos centraremos en los aspectos más directos derivados de la pregunta, es decir, cual de los dos la tiene más corta (la carga computacional, para los mal pensados). [Leer más]