Qué es Data Science, orígenes y utilización de los datos

En esta conferencia sobre Data Science el consultor Hector Cuesta explica cuáles son los orígenes del Data Science, en qué consiste, y cuáles son los pasos de resolución de un problema de Ciencia de Datos:

  • Definir el problema
  • Obtener los datos
  • Limpiar y formatear los datos
  • Explorar (Distribuciones, patrones y tendencias)
  • Modelar (Escoger algoritmos)
  • Escalar la solución (Infraestructura)
  • Visualizar e interpretar los resultados

También repasa las principales que se suelen utilizar, como R, Python, Hadoop, mongoDB, Cassandra, weka, D3js.., explica cómo se procesan los datos con MapReduce, y menciona problemas que puede resolver el Data Science como los de los sistemas de recomendación, sistemas basados en grafos, mejora de la experiencia en tiempo real, o la creación de aplicaciones Quantified Self, o de cuantificación de datos sobre uno mismo.
Termina la conferencia explicando qué es y qué no es el Big Data, y qué relación tiene con la Ciencia de los Datos.

Introducción al curso The Analytics Edge, de MITx en edX

Video de introducción al curso online The Analytics Edge, de MITx en la plataforma edX.
The Analytics Edge es un curso online gratuíto, basado en la materia de la misma asignatura del MIT The Analytics Edge, centrada en la importancia de la analítica de datos para la evolución de la sociedad, especialmente de las empresas y la industria.
El curso comienza presentando ejemplos reales de aplicación de analítica de datos avanzada, como los llevados a cabo por el supercomputador IBM Watson, eHarmony, Moneyball, el Framingham Heart Study o Netflix.
A través de estos ejemplos, y con la ayuda del software estadístico open source R, se enseñan y practican diferentes métodos analíticos:

  • Regresión lineal
  • Regresión logística
  • Árboles binarios, de clasificación..
  • Analítica de texto
  • Clusterización
  • Visualización
  • Optimización