Airflow, Prefect, dbt, NiFi y Kafka: comparativa práctica de las herramientas que mueven los datos de tu empresa

Airflow, Prefect, dbt, NiFi y Kafka: comparativa práctica de las herramientas que mueven los datos de tu empresa
Airflow, Prefect, dbt, NiFi y Kafka son un ejemplo de stack de integración —el del modern data stack open-source, código primero— que este capítulo usa como hilo conductor para entender los cuatro planos de un pipeline: quién orquesta (Airflow, Prefect), quién transforma (dbt), quién mueve los datos (NiFi) y sobre qué viajan los eventos en tiempo real (Kafka).
No son "las mejores" herramientas ni la única vía válida. El mercado ofrece desde plataformas comerciales integradas —Informatica, Azure Data Factory, AWS Glue, Talend y el resto del TOP 10 de Dataprix— hasta decenas de alternativas open-source por cada capa.
La pregunta correcta no es "¿qué cinco herramientas elijo?", sino entender los planos, elegir un arquetipo coherente con tu equipo y tu caso, y no usar una herramienta excelente para el trabajo equivocado..

Patrones ETL vs ELT: cuándo transformar en origen o en destino

ETL vs ELT: dos patrones de integración de datos enfrentados, transformar antes o después de cargar en el destino

ETL transforma los datos antes de cargarlos en el destino; ELT los carga primero en crudo y los transforma después dentro del propio almacén analítico. La elección no es una cuestión de modernidad sino de tres variables: coste (dónde y cuántas veces se paga el cómputo de transformación), latencia (cuánto tarda el dato en estar disponible y en qué estado) y gobernanza (qué datos sensibles pueden o no aterrizar en crudo en la plataforma analítica).
La mayoría de las organizaciones maduras acaban operando un patrón híbrido EtLT: una transformación ligera en vuelo —enmascarado de PII, deduplicación, normalización de formatos— seguida de la transformación pesada en el destino, gobernada como código..