Herramientas ETL para desarrollo de DWH

Buenos días.

Disculpad si esta cuestión no va bien aquí, quizá sería preferible en "Integración de datos". Si es necesario, muevo la consulta a ese otro foro.

Resulta que, después de estar investigando un poco en el mundillo del DWH y el BI, ha llegado el momento de cubrir la necesidad que tenemos de montar un pequeño DWH en la empresa. Lo haremos mediante MySQL o Postgres. La cuestión es que tenemos varias opciones en cuanto a la herramienta ETL, particularmente Talend Open Studio, Pentaho y Qlikview (entre otras de pago, pero sería preferible OpenSource o con licencias baratas...)

Necesitamos que esta herramienta sea capaz de leer gran cantidad de ficheros XML y unificarlos para llevarlo todo a BD, teniendo en cuenta que pueden cambiar de esquema cada poco tiempo. Entre otras características, tendríamos que poder ejecutarlo en remoto, generar logs, condicionar los trabajos según si ha ido bien o ha caído en error, etc.

Hemos estado probando sobre todo con Talend y Pentaho. Aunque tienen bastante diferencia en rendimiento, parece que ambas se acercan a lo que buscamos. Y he aquí mi pregunta, ya que por aquí hay gente con muchas horas encima...

¿Puede alguien darme un consejo u orientación sobre estas herramientas, tipo OpenSource o versión de pago, de cara a la productividad, facilidad, licencias, soporte y demás? ¿Cuál podría ser, a la larga, la mejor opción?

Por ahora no tenemos planteado explotar la información con herramientas de BI, aunque la integración con estas también es un detalle importante.

 

Muchas gracias de antemano.

Un saludo

Sí, aplica más a Integración de datos, ya está movido :)

Sobre la cuestión que planteas, yo en producción con la que tengo más experiencia es con Integration Services, con PDI sólo he hecho cursos y pruebas, y Talend no he llegado a usarla, pero te puedo decir que en varias ocasiones he preguntado a compañeros con más experiencia en ETL's open source, y me suelen recomendar más Talend que Pentaho, dicen que es más fácil de utilizar, y si necesitas soporte la opción de pago creo que funciona bastante bien.

Sobre QlikView, sí que tiene una herramienta para cargar y tratar datos, pero yo no la llamaría ETL, aparte de que esta totalmente orientada a QlikView. Si fuera para mi, yo optaría por Talend, que es manejable, potente y te independiza de lo que utilices después, aunque PDI seguro que también te servirá.

Si montas un Data Warehouse en base de datos, puedes elegir tranquilamente la ETL que más te convenga, como las herramientas de BI partirán de lo que cargues en las tablas, no va a importar demasiado si es todo del mismo fabricante o no.