Reseña de Big Data Analytics with R and Hadoop

Estos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos.

Big Data Analytics with R and Hadoop

 

El libro comienza con una acertada introducción a R, a Big Data, y a Hadoop, que en pocas páginas deja claro en qué consiste cada tecnología, cuáles son sus principales funcionalidades, características o componentes, y qué aporta la combinación de R y Hadoop.

Los dos primeros capítulos están dedicados a introducir el proceso de instalación de R, y de Hadoop, a explicar la arquitectura (HDFS y MapReduce), los componentes, y los subproductos de Hadoop, y a mostrar cómo desarrollar programas MapReduce para trabajar sobre el sistema distribuído de ficheros HDFS, incluyendo al final un pequeño ejemplo, y mencionando posibles aplicaciones en el 'mundo real’.

El tercer y cuarto capítulo se introducen ya en la integración entre R y Hadoop, que permite desarrollar en R programas MapReduce que se ejecutan sobre el cluster de Hadoop. Se explica cómo hacerlo con tres métodos diferentes, con el package RHIPE (R and Hadoop Integrated Programming Environment), con la colección de paquetes RHadoop (rhdfs, rmr y rhbase), y con el package de R HadoopStreaming R, que como su nombre indica permite utilizar el streaming de Hadoop con R.

Los siguientes capítulos son los que he encontrado más interesantes, ya que en ellos se plantean ejemplos de casos reales de analítica sobre Big Data que se pueden resolver con la combinación de R y Hadoop. Además el autor explica todo el proceso, con las diferentes etapas que suelen componer el cliclo de vida de un proyecto de analítica de datos. Los datasets que se utilizan son, por ejemplo, extracciones de datos de Google Analytics, o de Yahoo! Finance.
La explicación de cómo aplicar técnicas y algoritmos de aprendizaje automático como regresión lineal, clasificación, clusterización y, especialmente, algoritmos de recomendación es bastante completa, y puede servir de inspiración para muchos proyectos.

El libro termina detallando cómo utilizar packages de R para importar y exportar datos de diferentes orígenes o bases de datos tales como RData, CSV, MySQL, Excel, MongoDB, SQLite, PostgreSQL, Hive o HBase.

 

Encuentro la obra de gran utilidad para todo aquel que quiera introducirse en el mundo de la analítica de datos sobre Big Data, sobretodo si ya se tiene alguna experiencia con R u otros paquetes de analítica de datos que utilicen algoritmos de base estadística.

 

Disponible en Amazon: Big Data Analytics with R and Hadoop