Qué es Data Science, orígenes y utilización de los datos

En esta conferencia sobre Data Science el consultor Hector Cuesta explica cuáles son los orígenes del Data Science, en qué consiste, y cuáles son los pasos de resolución de un problema de Ciencia de Datos:

  • Definir el problema
  • Obtener los datos
  • Limpiar y formatear los datos
  • Explorar (Distribuciones, patrones y tendencias)
  • Modelar (Escoger algoritmos)
  • Escalar la solución (Infraestructura)
  • Visualizar e interpretar los resultados

También repasa las principales que se suelen utilizar, como R, Python, Hadoop, mongoDB, Cassandra, weka, D3js.., explica cómo se procesan los datos con MapReduce, y menciona problemas que puede resolver el Data Science como los de los sistemas de recomendación, sistemas basados en grafos, mejora de la experiencia en tiempo real, o la creación de aplicaciones Quantified Self, o de cuantificación de datos sobre uno mismo.
Termina la conferencia explicando qué es y qué no es el Big Data, y qué relación tiene con la Ciencia de los Datos.