RHIPE: Utilizar Hadoop para analizar grandes cantidades de datos con R

Hadoop es el proyecto de Apache que proporciona un entorno que soporta la gestión de grandes cantidades de datos. Este tipo de sistemas se suelen utilizar para soportar la gran cantidad de información que generan las grandes redes sociales, sobretodo cuando las bases de datos relacionales comienzan a presentar problemas de escalabilidad, o el coste del crecimiento es demasiado elevado.

Otra aplicación de estos sistemas de gestión de BigData es el soporte al análisis de grandes cantidades de información. Por esta razón la suite de BI Pentaho ya se integra con Hadoop y permite utilizar Hadoop como origen de datos.

Otra buena aplicación de Hadoop la encontramos en el proyecto RHIPE, una interfaz entre Hadoop y R, la herramienta open source de procesamiento estadístico, que permite utilizar Hadoop para soportar de manera eficiente sobre grandes cantidades de datos los análisis estadísticos que se pueden realizar con R .

El video adjunto, obtenido del artículo RHIPE: An Interface Between Hadoop and R for Large and Complex Data Analysis presenta esta interesante interfaz:

 

RHIPE: An Interface Between Hadoop and R
Presented by Saptarshi Guha

Video Link