Guía sobre procesos y elección de herramientas de ETL

Los procesos ETL (Extracción, Transformación y Carga) son un elemento clave para la construcción y mantenimiento de sistemas de Data Warehouse en entornos de Business Intelligence. Las herramientas ETL automatizan, organizan y optimizan esos procesos, facilitando especialmente la gestión, el mantenimiento y la escalabilidad de todo el entorno de 'alimentación' del Data Warehouse, y también de otros entornos.

Guia sobre Procesos ETL

La consultora Powerdata, especialista en Gestión de Datos, ha elaborado una guía sobre procesos ETL titulada 'Procesos ETL. La base de la inteligencia de negocio'.

La guía comienza definiendo qué son los procesos ETL, y para qué se utilizan, tanto en entornos de Data Warehouse como en otros entornos donde la integración de datos también juega un papel muy importante. Después entra en detalle sobre las actividades a realizar en cada etapa del proceso, en la extracción, en la transformación y en la carga, e incluye advertencias sobre los aspectos que se han de tener en cuenta en cada etapa.

En el documento se dedica una parte importante a explicar qué es una herramienta ETL, qué funcionalidades cubre, cómo han evolucionado para abarcar nuevos procesos como Data profiling, Data Quality, acceso en tiempo real, gestión de metadatos o servicios de entrega, y qué ventajas tiene utilizar una herramienta ETL sobre la implementación personalizada de los procesos de ETL con lenguajes de programación como .Net, Java, PL/SQL o Transact SQL.

También se cubre el delicado tema de qué herramienta ETL utilizar, cuáles son las características y capacidades más importantes de las mismas, según recomendaciones de Gartner, y cómo realizar el proceso de evaluación paso a paso, teniendo en cuenta inicialmente consideraciones de volumetría de datos a procesar, diversidad de fuentes de datos, necesidades de documentación, de control de las cargas, tratamiento de errores.. y pasando después a la comparativa entre herramientas de diferentes proveedores para seleccionar finalmente la que mejor se adapte a las necesidades de la compañía.

El último capítulo está dedicado a analizar la diferencia entre los conceptos de procesos ETL y procesos E-LT, que estriba justamente en el cambio de ordenación de la secuencia de procesos. En E-LT el proceso de carga se realiza tras la extracción ya en el sistema o base de datos destino, de manera que los procesos de transformación posteriores se pueden hacer más eficientes utilizando la tecnología de esta base de datos, utilizando PL/SQL o T-SQL, por ejemplo. La comprensión del concepto es importante a la hora de la selección de una herramienta ETL o E-LT, ya que sólo tiene sentido plantearse la elección de una E-LT si realmente se van a aprovechar las ventajas que puede aportar.

Creo que el documento es fácil de leer, bien resumido y muy recomendable, especialmente para responsables de IT que estén a punto de embarcarse en un proyecto de integración de datos.

 

 

Por Carlos Fernández

 

Si te ha gustado este post compártelo. Con el botón de 'SHARE' son sólo unos segundos.

Hola Carlos; mucho gusto, esta padrísimo tu portal, muchas felicidades.
Oye tengo una pregunta cuales son los elementos de básicos de un data warehouse...no entindi buen esa parte..jejejej