data mining

Data science: caso aplicado a sector retail (análisis cesta de la compra)

Basket market analysisExisten múltiples aplicaciones de business analytics para el sector retail. Desde diferentes perspectivas los sistemas de business intelligence ayudan cuestiones críticas para el negocio, como pueden ser:

  • Analizar clientes (segmentación, captación, retención, fidelización)
  • Optimizar precios (elasticidad, pricing)
  • Procesos de previsión de la demanda y previsión de ventas
  • Análisis de las redes de distribución, transporte y almacenamiento
  • Control geográfico de redes comerciales de gran capilaridad
  • Seguimiento transacciones de venta (análisis productos y cesta de la compra)

En este post vamos a centrarnos en los procesos de análisis de cesta de la compra, realizando un rápido ejemplo..

Conectando SAS y R

SAS

En los procesos de tratamiento de datos de los proyectos de Data Science es habitual encontrarse con la necesidad de conectar dos herramientas. Por ejemplo, podemos encontrarnos el caso de realizar la obtención y la preparación del dato en SAS y su modelización y análisis en R. Es una opción útil sobre todo si trabajamos con altos volúmenes de datos para los que R puede tener alguna limitación al trabajar en memoria. Haciendo el tratamiento previo en SAS podemos dejar la información depurada y agregada para R.

Análisis exploratorio en R

Análisis exploratorio con RDentro de las actividades de análisis de datos, está el análisis exploratorio de los datos fuente. Datos fuente que se utilizarán en diferentes tipos de procesos: integración de datos, reporting, modelos predictivos, etc..

Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: frecuencias, valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, disperión, forma de la distribución, correlaciones, etc...

Listado de Software de Data Mining gratuíto, open source o freeware

Listado de software y herramientas de Data Mining, de proveedores de software gratuíto, ya sea software libre (open source), freeware o versiones gratuítas de herramientas de datamining.
Iremos ampliando información sobre cada herramienta de minería de datos, y también sobre otro software de data mining de libre utilización que vayamos conociendo, o que vayáis sugiriendo en los comentarios.

Listado de Software de Data Mining propietario

Listado de software y herramientas de Data Mining, de proveedores de software propietario, es decir, software de pago.

Iremos ampliando información sobre cada herramienta de minería de datos, y también sobre otro software de data mining comercial que vayamos conociendo, o que vayáis sugiriendo en los comentarios.

Analisis predictivo en SAS: árboles de decisión

Una de las técnicas más utilizadas dentro del análisis predictivo son los árboles de decisión. Esta técnica tiene múltiples aplicaciones en el campo de la estadística, pero nos vamos a centrar en su uso para realizar predicciones, concretamente obtener probabilidades de eventos. En este post revisamos una posible forma de hacerlo con el software de uno de los principales fabricantes del software de business analytics: SAS

Data Science - Breve guía para interpretar modelos cluster

Análisis de clusterEn clustering se deja que los datos se agrupen de acuerdo a su similitud. Estos modelos son agrupaciones de segmentos -clusters- que contienen casos, tales como clientes, pacientes, autos, etc.

Una vez que un modelo de cluster es desarrollado, una pregunta emerge: ¿Cómo puedo describir mi modelo?

Aquí presentaremos una manera para acercarnos a la respuesta, a través de la implementación del Gráfico de Coordenadas in R (código disponible al final del post)..

Geo Data Science con R

El siguiente análisis está realizado con el lenguaje R y la libreria Google Vis para la visualización de gráficos. Es tan importante medir la esperanza de vida así como también la calidad de la misma. Se analizarán datos de eurostat basados en las variables Healthy life years y Life expectancy..

Jornadas de R

Paquete estadístico REl uso del paquete estadístico R es cada vez más extendido y empieza a estar en el toolkit de muchos data scientists.

En las pasadas Jornadas de usuarios de R a parte de aprender R, es una oportunidad (gratuita) de conocer lo que la comunidad de usuarios está haciendo con la herramienta..