Reseña de 'Practical Data Science Cookbook'

Practical Data Science Cookbook

El libro Practical Data Science Cookbook es una introducción al mundo del Data Science a través de ejemplos prácticos en forma de recetas, que van enseñando cómo podría ser el proceso típico de analítica de datos que puede realizar un Científico de Datos con un entorno de analítica configurado para trabajar con el potente lenguaje de analítica y estadística R, o con el versátil lenguaje Python.

Los autores de Practical Data Science Cookbook, de la editorial Packt Publishing, son Tony Ojeda, Sean Patrick Murphy, Benjamin Bengfort y Abhijit Dasgupta, todos expertos científicos o analistas de datos.

El libro comienza con una introducción al Data Science, y al proceso analítico que puede seguir un científico de datos en su trabajo diario, que puede estructurarse en estos cinco pasos:

  1. Obtención de los datos
  2. Exploración y comprensión
  3. Limpieza y transformación de los datos
  4. Análisis y modelización
  5. Comunicación y visualización

Se introducen los lenguajes que se utilizarán en los ejemplos, R en los primeros capítulos, y Python en los siguientes. El primer capítulo continúa ofreciendo una guia sobre cómo instalar las herramientas necesarias para poder probar los ejemplos o recetas que se proporcionarán después. Estas herramientas, todas de software libre, son R, RStudio, Python, virtualenv y librerías adicionales de analítica y gráficas tanto para R como para Python, incluyendo el Python data stack, o SciPy stack. Las indicaciones se proporcionan para Linux, Mac OS y Windows, aunque con Windows la configuración del entorno se complica más que para Linux o Mac.

En el segundo capítulo, Driving Visual Analysis with Automobile Data (R), se entra ya en materia con el primer proceso de analítica de datos para identificar tendencias y patrones en la eficiencia en el consumo de combustible que, más que hacer descubrimientos espectaculares pretende pasar por las diferentes etapas del proceso de analítica importando, explorando, limpiando, analizando y visualizando los datos de un dataset público de automóbiles con RStudio, y la ayuda de las potentes librerías 'plyr' y 'ggplot2'.

Entorno de RStudio - R

 

El tercer capítulo, Simulating American Football Data (R) analiza datos de equipos de fútbol para llegar a simular partidos y predecir victorias en los enfrentamientos entre los equipos.

El capítulo 4, Modeling Stock Market Data (R), muestra cómo utilizar medias móbiles para analizar históricos de precios de stock.

El siguiente capítulo, Visually Exploring Employment Data (R), muestra cómo hacer con R analítica geoespacial de datos trabajando sobre datos públicos de empleo e ingresos.

El capítulo 6, Creating Application-oriented Analyses Using Tax Data (Python), inicia la serie de recetas de Python con analítica sobre datos de impuestos.

El capítulo 7, Driving Visual Analysis with Automobile Data (Python), realiza los mismos procesos analíticos sobre datos de automóbiles mostrados en el capítulo 2, pero utilizando Python en lugar de R.

El octavo capítulo, Working with Social Graphs (Python), muestra cómo analizar redes sociales con un ejemplo de red social de relaciones entre personajes de comics.

En el capítulo 9, Recommending Movies as Scale (Python), se proporcionan 'recetas' para montar con Python un sistema de recomendación de películas.

El décimo capítulo, Harvesting and Geolocating Twitter Data (Python), muestra cómo utilizar este lenguaje para, gracias a la API de Twitter, terminar representando en gráficas la información geográfica que contienen los perfiles de usuario de Twitter.

Finalmente, en el capítulo 11, Optimizing Numerical Code with NumPy and SciPy (Python), se presentan optimizaciones de Python para poder trabajar de manera eficiente con grandes sets de datos.

Dado el imparable crecimiento de los datos, y la ventaja competitiva que representa para las empresas el poder analizar datos internos y externos, estructurados y desestructurados, para obtener de ellos conclusiones, tendencias, patrones, etc., la profesión de Científico de Datos es una de las profesiones emergentes para las que se prevee mejor futuro y remuneración, ya que la demanda de este perfil tan especializado puede ser muy grande.

Creo que este libro es perfecto para todo aquel que quiera iniciarse en el mundo Data Science para averiguar de una manera muy práctica en qué consiste, o para comenzar a encaminar su profesión hacia esta interesante especialización.

 

Nota: El libro Practical Data Science Cookbook también está disponible en Amazon.