| Dataprix

La integración de datos es la fontanería invisible sobre la que se sostiene toda la arquitectura: sin ella, el data lake del capítulo 8, los pipelines de los próximos capítulos y los dashboards de la Parte IV son cajas vacías. La decisión más importante no es qué herramienta comprar, sino cuándo mover los datos: en tiempo real, evento a evento, o agrupados en lotes a intervalos fijos.

Diagrama del panorama de la integración de datos mostrando el flujo desde sistemas origen hacia destinos analíticos a través de las capas de eventos, mensajería, colas y CDC — El territorio de la integración de datos: de los sistemas origen al consumo, pasando por las grandes familias de patrones.

Este capítulo desgrana las cuatro piezas fundamentales —eventos, mensajería, colas y Change Data Capture (CDC)— y ofrece criterios de consultoría para no caer en el error más caro de todos: aplicar streaming a problemas que el batch resolvía a una décima parte del coste, o forzar el batch donde el negocio exige inmediatez.

Read more about Patrones ETL vs ELT: cuándo transformar en origen o en destino
Log in to post comments

ETL vs ELT: dos patrones de integración de datos enfrentados, transformar antes o después de cargar en el destino

ETL transforma los datos antes de cargarlos en el destino; ELT los carga primero en crudo y los transforma después dentro del propio almacén analítico. La elección no es una cuestión de modernidad sino de tres variables: coste (dónde y cuántas veces se paga el cómputo de transformación), latencia (cuánto tarda el dato en estar disponible y en qué estado) y gobernanza (qué datos sensibles pueden o no aterrizar en crudo en la plataforma analítica).
La mayoría de las organizaciones maduras acaban operando un patrón híbrido EtLT: una transformación ligera en vuelo —enmascarado de PII, deduplicación, normalización de formatos— seguida de la transformación pesada en el destino, gobernada como código..

El problema fundamental: por qué un esquema no se despliega como el código

Cambiar el esquema de una base de datos viva es una de las operaciones más temidas de cualquier equipo de plataforma: un simple RENAME mal ejecutado puede tumbar un servicio que factura miles de transacciones por minuto. Pero la diferencia entre un equipo frágil y uno maduro no está en si migran, sino en cómo lo hacen. Este capítulo desgrana el trípode del cambio seguro en producción —patrón expand/contract, feature flags y compatibilidad hacia atrás— para convertir la migración de esquema en una operación rutinaria, reversible y sin downtime..

Arquitectura de plataforma de datos de una fintech: capa transaccional, streaming, lakehouse analítico y consumo — Vista general de las cuatro capas de la plataforma: transaccional, ingesta en streaming, lakehouse analítico y consumo.

Una fintech es, en esencia, una empresa de datos que casualmente mueve dinero. Su plataforma tiene que conciliar lo que en otros sectores va por separado: latencia de milisegundos para autorizar pagos, consistencia transaccional estricta para que ningún saldo cuadre mal, analítica masiva para el antifraude y el scoring, y trazabilidad regulatoria perpetua para el supervisor.
En este caso práctico —que cierra la Parte II de la Guía— se diseña ese stack de principio a fin a través de una fintech europea, recorriendo las decisiones, los trade-offs y los errores evitados: del ledger inmutable a la idempotencia, del tiering de almacenamiento a la resiliencia por niveles de criticidad. Incluye un incidente real que demuestra por qué las decisiones que parecían sobreingeniería cara fueron justo las que salvaron la operación.

Read more about Nvidia presenta DLSS 5 apostando por el renderizado neuronal
Log in to post comments

Nvidia

Nvidia quiere que la inteligencia artificial sea algo más que una aliada para ganar fotogramas por segundo en el universo gamer y que tenga un rol más ambicioso dentro del aparato visual de los videojuegos. Con DLSS 5, la compañía pretende un nuevo enfoque: reconstruir la imagen o mejorar el rendimiento no es suficiente para la gigante verde, ha llegado la hora de intervenir en la creación final de la escena con cambios en la iluminación y en los materiales para dotarlos de un aspecto más realista gracias al renderizado neuronal en tiempo real.

Backup y replicación

Este capítulo ofrece una hoja de ruta completa para diseñar, implementar y verificar la estrategia de resiliencia y disaster recovery de la capa de datos. No se trata solo de tener backups —que, por supuesto, son imprescindibles— sino de construir un sistema en el que cada componente conoce su RTO (Recovery Time Objective) y su RPO (Recovery Point Objective), donde los procedimientos de recuperación están documentados en runbooks operativos verificados, y donde las pruebas de DR se ejecutan con la misma disciplina con la que se ejecutan las pruebas de rendimiento o los pen tests de seguridad..

Observabilidad en la capa de datos

La observabilidad en la capa de datos es la disciplina que convierte el comportamiento interno de bases de datos, pipelines y motores de almacenamiento en información accionable para los equipos de ingeniería. A diferencia de la simple monitorización —que alerta cuando algo ya ha roto—, la observabilidad permite anticipar degradaciones, diagnosticar causas raíz y comprender el estado del sistema en tiempo real.
En este capítulo se analizan en profundidad las métricas esenciales por tipo de base de datos, los patrones de distributed tracing aplicados a la capa de datos, las estrategias de alerting que van más allá de los umbrales estáticos, las herramientas del ecosistema actual y los riesgos que pueden convertir un proyecto de observabilidad en un grave problema de señal-ruido..

La resolución de conflictos de versión en equipos de producto es el proceso técnico y colaborativo de identificar, analizar y reconciliar diferencias entre dos o más conjuntos de cambios hechos al mismo tiempo sobre un mismo archivo o base de código. Es el mecanismo que permite que la innovación avance sin que el trabajo de un desarrollador o diseñador sobrescriba o anule lo que otro ya hizo. En entornos de nube, esta tarea se vuelve crítica, porque la velocidad de sincronización y la concurrencia de usuarios en diferentes lugares aumentan la probabilidad de que aparezcan estas colisiones digitales..

Si hay una factura de infraestructura que crece de manera silenciosa hasta convertirse en un problema de comité de dirección, esa es la del almacenamiento en la nube. Según estimaciones de FinOps Foundation, entre el 25 % y el 35 % del gasto cloud de una organización media se destina a almacenar datos, y de ese volumen, cerca de un tercio corresponde a información a la que nadie ha accedido en los últimos seis meses. El escenario es tan habitual como preocupante: un data lake que comenzó como un repositorio prometedor se transforma en un data swamp donde conviven petabytes de logs sin catalogar, copias redundantes de backups y snapshots huérfanos que nadie se atreve a borrar porque «quizá alguien los necesite».

Read more about dbt (Data Build Tool): Qué es y cómo funciona. Guía práctica en español
Log in to post comments

ELT moderno con dbt

dbt se ha convertido en la herramienta de referencia para la transformación de datos en los stacks de datos modernos. Si trabajas con SQL y necesitas transformar datos en un data warehouse, dbt te permite hacerlo de forma modular, versionada, documentada y testeable — aplicando las mejores prácticas de ingeniería de software al mundo de los datos.
En esta guía práctica en español te explicamos qué es dbt, cómo funciona, cuándo usarlo, y cómo empezar con tu primer proyecto..

🎓 Formación recomendada por Dataprix

Profundiza en Analítica de Datos con estos cursos en español:

Curso SQL completo → BI y Minería de Datos → Data Analytics + Power BI →

Enlaces de afiliado · Dataprix puede recibir una comisión por tus compras

Suscríbete a nuestro boletín

Featured software

Semrush

Semrush reúne en una sola plataforma SaaS todo lo que un equipo de marketing digital necesita para dominar el posicionamiento orgánico, la publicidad de pago y la inteligencia competitiva: más de 55 herramientas integradas, una base de datos de 26.000 millones de palabras clave, 43 billones de backlinks indexados y estimaciones de tráfico para cualquier dominio..
…

🟢 DataCamp — Aprende datos e IA en español

600+ cursos interactivos de SQL, Python, Power BI y más. Empieza gratis, certifícate como profesional de datos.

Probar Gratis →

Enlace de afiliado · Dataprix puede recibir una comisión

Eventos vs batch: los fundamentos de la integración de datos que deciden el futuro de tu arquitectura

Patrones ETL vs ELT: cuándo transformar en origen o en destino

Migraciones de esquema en producción sin caídas: cómo dominar blue/green, feature flags y compatibilidad hacia atrás

Diseñar la plataforma de datos de una fintech: anatomía de un stack que no puede fallar

Nvidia presenta DLSS 5 apostando por el renderizado neuronal

Resiliencia y Recuperación ante Desastres en la Plataforma de Datos: Guía Completa de RTO, RPO, Runbooks y Pruebas de DR

Observabilidad en bases de datos: métricas clave, distributed tracing y alerting para la capa de datos

Resolución de conflictos de versión en equipos de producto: Mejores prácticas de control de versiones en la nube

Almacenamiento en la Nube: S3, Azure Blob, Tiering y Políticas de Retención — Cómo Optimizar Costes sin Sacrificar el Cumplimiento Normativo

dbt (Data Build Tool): Qué es y cómo funciona. Guía práctica en español

🎓 Formación recomendada por Dataprix

Semrush