Recursos sobre Pentaho y su integración con Apache Hadoop

Resource type
Herramientas

Cada vez más es necesario analizar grandes cantidades de datos. Aquí se habla del funcionamiento de Pentaho y Hadoop.

Apache Hadoop es un marco para ejecutar grandes aplicaciones. El entorno de Hadoop es transparente y proporciona aplicaciones fiables y con grandes movimiento de datos. Hadoop implementa un paradigma computacional llamado Map Reduce, donde se divide la aplicación en muchos fragmentos pequeños de trabajo, cada uno de los cuales pueden ser ejecutados o reejecutados en cualquier nodo del clúster. 

Además, proporciona un sistema de archivos distribuido (HDFS) que almacena los datos en los nodos de cómputo, proporcionando ancho de banda agregado muy alto en todo el clúster. Tanto Map Reduce, como el sistema de archivos distribuidos están diseñados para que los fallos de nodo se gestiona automáticamente por el framework.

 

Las nuevas aplicaciones web actuales (redes sociales, marketing y venta online, etc...) están generando una 'explosión' en la cantidad de información y datos para almacenar y, obviamente, para analizar: log files, clickstream data, social media data, call logs, fraud detection....

hadoop

Enlaces a los principales recursos sobre Pentaho y Hadoop:

Comentarios en las noticias: