Reseña de Big Data Analytics with R and Hadoop

Estos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos.

Big Data Analytics with R and Hadoop

 

El libro comienza con una acertada introducción a R, a Big Data, y a Hadoop, que en pocas páginas deja claro en qué consiste cada tecnología, cuáles son sus principales funcionalidades, características o componentes, y qué aporta la combinación de R y Hadoop.

Los dos primeros capítulos están dedicados a introducir el proceso de instalación de R, y de Hadoop, a explicar la arquitectura (HDFS y MapReduce), los componentes, y los subproductos de Hadoop, y a mostrar cómo desarrollar programas MapReduce para trabajar sobre el sistema distribuído de ficheros HDFS, incluyendo al final un pequeño ejemplo, y mencionando posibles aplicaciones en el 'mundo real’.

El tercer y cuarto capítulo se introducen ya en la integración entre R y Hadoop, que permite desarrollar en R programas MapReduce que se ejecutan sobre el cluster de Hadoop. Se explica cómo hacerlo con tres métodos diferentes, con el package RHIPE (R and Hadoop Integrated Programming Environment), con la colección de paquetes RHadoop (rhdfs, rmr y rhbase), y con el package de R HadoopStreaming R, que como su nombre indica permite utilizar el streaming de Hadoop con R.

Los siguientes capítulos son los que he encontrado más interesantes, ya que en ellos se plantean ejemplos de casos reales de analítica sobre Big Data que se pueden resolver con la combinación de R y Hadoop. Además el autor explica todo el proceso, con las diferentes etapas que suelen componer el cliclo de vida de un proyecto de analítica de datos. Los datasets que se utilizan son, por ejemplo, extracciones de datos de Google Analytics, o de Yahoo! Finance.
La explicación de cómo aplicar técnicas y algoritmos de aprendizaje automático como regresión lineal, clasificación, clusterización y, especialmente, algoritmos de recomendación es bastante completa, y puede servir de inspiración para muchos proyectos.

El libro termina detallando cómo utilizar packages de R para importar y exportar datos de diferentes orígenes o bases de datos tales como RData, CSV, MySQL, Excel, MongoDB, SQLite, PostgreSQL, Hive o HBase.

 

Encuentro la obra de gran utilidad para todo aquel que quiera introducirse en el mundo de la analítica de datos sobre Big Data, sobretodo si ya se tiene alguna experiencia con R u otros paquetes de analítica de datos que utilicen algoritmos de base estadística.

 

Disponible en Amazon: Big Data Analytics with R and Hadoop 

 

He empezado a checar los beneficios de R hace poco, me he estado sumergiendo en el lenguaje así también en el análisis de datos, R brinda grandes ventajas al momento de implementar los algoritmos de minería de datos, además de que es fácil de entender. El libro mencionado me parece fabuloso puesto que combina la funcionalidad de R con Hadoop. 
Saludos. buena reseña. 

 Excelente reseña, ahora estoy con muchas ganas de integrar R con Hadoop para aplicar los algoritmos de datamining asimismo aprovechar al maximo el uso del big data en mi organización. Saludos. 

Me parece muy interesante el libro tanto el manejo o concepto de big data con la integración de distintas tecnologías.

Hola

El libro combina dos de las tecnologías más importantes que hay en la actualidad para el tratamiento de datos. Hadoop es casi insuperable para el tratamiento de grandes volúmenes de información y R es un lenguaje estupendo para realizar tareas estadísticas y analíticas sobre dichos datos.

Gracias por ofrecer esta oportunidad de conseguir el libro

 Buenos días,

 

Como consultor de BI este libro me parece super interesante!

 

Me gustaría aprender el legunaje R y el Big Data también es un area que quiero aumentar mis conocimientos asi que este libro me vendria muy bien.

 

Saludos!

 

 

 

 

 

 

 

 Como estudiante de ingenieria informatica estoy muy interesado en este tema, ya realize ETL con otras herramientas, pero pienso que con BigData puedo complementar esos conocimientos :D ! Buena iniciativa la de Uds. saludos ! 

Buen Día:

Encuentro muy interesante el libro y la forma como se manejan e integran las bases de datos, me gustaría poder participar en el sorteo del e-book.

Gracias.

CAROLINA OTALORA

Buen Día:
Encuentro muy interesante el libro y la forma como se manejan e integran las bases de datos, me gustaría poder participar en el sorteo del e-book para poder ponerlo en practica en la institución para la que trabajo.

Gracias.

CAROLINA OTALORA

 Buenas tardes, 

Como ingeniero en informática estoy interesado en el análisis de datos mediante R. También en el tratamiento de grandes volúmenes de datos en Hadoop. Creo que es una buena combinación de las dos tecnologías y interesante aprofundir en los detalles.

 

Muchas gracias, saludos!

 

La principal importancia de Big Data puede entenderse como una consecuencia natural del mundo digitalizado. A diferencia de años atras, hoy en día una compañia tiene diferentes canales de comunicación con sus clientes, desde donde recopila información sobre sus preferencias y además identifica la importancia y presencia que tiene su marca.

Lo interesante está, en que es un gran tema y pocos están familiarizados con él.

Así que, me encantaría poder leer esta maravillosa obra, ya que se adentra a un sorprendente tema.

¡Saludos!