Reseña de Big Data Analytics with R and Hadoop

Big DataEstos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..

RHIPE: Utilizar Hadoop para analizar grandes cantidades de datos con R

 

Video Link

Hadoop es el proyecto de Apache que proporciona un entorno que soporta la gestión de grandes cantidades de datos. Este tipo de sistemas se suelen utilizar para soportar la gran cantidad de información que generan las grandes redes sociales, sobretodo cuando las bases de datos relacionales comienzan a presentar problemas de escalabilidad, o el coste del crecimiento es demasiado elevado.

Una buena aplicación de Hadoop la encontramos en el proyecto RHIPE, una interfaz entre Hadoop y R, la herramienta open source de procesamiento estadístico, que permite utilizar Hadoop para soportar de manera eficiente sobre grandes cantidades de datos los análisis estadísticos que se pueden realizar con R..