Data Mining básico: correlaciones, regresiones, mercado de valores y… Excel!

Correlación:

Para explicarlo, empezaremos con un ejemplo: Supongamos un sitio web ficticio que vende productos, y hace descuentos variables con tarjetas de crédito, veremos que a mayor % de descuento mayor es la cantidad de ventas. Esto es una correlación positiva, cuando aumenta una variable (“% Descuento”), aumenta la otra (“Ventas”)

Correlacion negativa

Fig. 1

 

Por el contrario, si en vez de aumentar la cantidad de ventas, disminuyera, esto sería una correlación negativa.
 

¿Por qué es importante el concepto de correlación?

El análisis de correlación nos permite entender como se relacionan variables de nuestro negocio. Siguiendo el ejemplo del sitio web, al CEO le interesará saber cuales son las variables que determinan (o se correlacionan) con un aumento en las compras, mayor visitas al sitio, más tiempo navegando productos, etc.
 

¿Y cómo se mide?

El R2, (R cuadrado), mide el grado de correlación entre variables, (tiene sus particularidades dependiendo del caso de análisis). Es un número que varía entre 0 y 1: Un valor cercano a 0 indica que no hay relación entre las variables, por el contrario si es cercano a 1, indica que si hay relación.
Veamos algunos ejemplos:
 

Correlacion entre variables

Fig. 2

Cada punto representa un cliente,  y vemos  como a medida que aumenta la cantidad de compras, el precio promedio de los productos también aumenta.
En el grafico también se ve que la relación es lineal, si se traza una línea que represente a todos esos puntos, obtendremos lo siguiente:

Grafica R cuadrado

Fig. 3

La recta se construye de tal manera que pase lo “más cerca” de todos los puntos. Además vemos el R2, que es de 0,9 indicando que existe una correlación entre ambas variables.

Analicemos un caso contrario, para poder comparar:

Poca correlacion entre variables

En este caso el R2 da muy bajo, 0.0004, y es lógico viendo el gráfico, ya que a para todas las edades de nuestros clientes, el total vendido se mantiene “bastante” homogéneo… con lo cual podemos concluir que el total comprado en el sitio no depende de la edad del cliente.

 

Regresión:

La recta, se llama formalmente “Recta de Regresión lineal” y aunque parezca muy simple, es un Modelo de Data Mining! Por ejemplo, si nos basamos en la Fig. 3, podríamos influenciar a nuestros clientes con campañas de descuento para que los que compran 2 veces, empiecen a comprar 3.

Basándonos en el gráfico, podemos decir que pasarían a gastar u$s 50 más en promedio por producto. Esto surge de ver que los que compran 2 veces gastan u$s 200 mientras que los que compran 3 veces lo hacen por u$s 250 en promedio. Con esto podemos generar algunos escenarios “Si aumenta 1 vez la cantidad de compras, entonces la rentabilidad del negocio aumentara ‘X’ veces”
 

Ejemplo del Mercado de Valores: 

En el gráfico podemos ver como varia el varía el volúmen de la acción S&P para los últimos 5 años.

Obteniendo los datos de esa serie puede hacerse una recta de regresión, y podríamos (a modo didáctico) ver cuál es el crecimiento aproximado de la acción para el mes que viene. A estos modelos se los llama Forecasting Time Series

Para el que quiera saber como descargar datos de la bolsa usando Excel, acá un post que redacte hace un tiempo:  http://capacitaciones-bi.blogspot.com.ar/2013/02/obtener-datos-historicos-del-mercado-de.html
 

Hágalo Ud. mismo, en Excel!

Para poder hacer una explicación más didáctica, es entretenido hacerlo uno mismo, por eso pueden analizar los datos de su propio negocio en menos de 10 minutos, e ir descubriendo algunas relaciones que mejoren sus ingresos. Si bien es muy básico, es un punto de partida…

Para ello cree otro post con el paso a paso: http://www.dataprix.com/blog-it/business-intelligence/mineria-datos/como-crear-recta-regresion-lineal-excel-2010

--
Si quieres visitar otro post de análisis de data mining en Data Prix: http://www.dataprix.com/blog-it/business-intelligence/mineria-datos/potenciando-acciones-marketing-data-mining

Pueden escribirme a la casilla de Data Prix:  capacitadores.bi@gmail.com por cualquier inquietud o interés en compartir conocimiento en estos temas.

Saludos y hasta la próxima!