data mining

Análisis cluster basado en campos alfanuméricos

Foros IT

Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

 

Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

"Santiago Hernandez; Avenida Olleros 1234;"

"Santiago Hernandes; Avda Olleros 1234;"

 

Análisis cluster basado en campos alfanuméricos

Foros IT

Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

 

Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

"Santiago Hernandez; Avenida Olleros 1234;"

"Santiago Hernandes; Avda Olleros 1234;"

 

Registros Unicos

Foros IT

Hola a todos:

Antes que nada espero que esten bien :), y pues ahora vengo en ayuda de ustedes compañeros de foro, basicamente mi cuestión es la siguiente:

 

Es sobre una consulta, el tema lo podriamos tomar de la siguiente manera, se tiene una tabla de transacciones , de empleados ,  de personas y de polizas basicamente un empleado puede tener un dependiente o mas (familiar, etc), tendriamos la siguiente función,ese empleado cuando se da de alta se registra en las 3 tablas mencionadas, es decir se inserta en la tabla de personas y se registra con id_persona junto con otros datos, en la tabla de empleados se inserta con un id_empleado  junto con el id_persona mas otros datos de ahi inserta en la tabla transacciones con un id_transacción mas un id_empleado y por ultimo con la tabla de polizas que genera un ID_poliza y espera el id_transacción mas el id_persona  junto con otros datos.

 

Data science: caso aplicado a sector retail (análisis cesta de la compra)

Basket market analysisExisten múltiples aplicaciones de business analytics para el sector retail. Desde diferentes perspectivas los sistemas de business intelligence ayudan cuestiones críticas para el negocio, como pueden ser:

  • Analizar clientes (segmentación, captación, retención, fidelización)
  • Optimizar precios (elasticidad, pricing)
  • Procesos de previsión de la demanda y previsión de ventas
  • Análisis de las redes de distribución, transporte y almacenamiento
  • Control geográfico de redes comerciales de gran capilaridad
  • Seguimiento transacciones de venta (análisis productos y cesta de la compra)

En este post vamos a centrarnos en los procesos de análisis de cesta de la compra, realizando un rápido ejemplo..

Conectando SAS y R

SAS

En los procesos de tratamiento de datos de los proyectos de Data Science es habitual encontrarse con la necesidad de conectar dos herramientas. Por ejemplo, podemos encontrarnos el caso de realizar la obtención y la preparación del dato en SAS y su modelización y análisis en R. Es una opción útil sobre todo si trabajamos con altos volúmenes de datos para los que R puede tener alguna limitación al trabajar en memoria. Haciendo el tratamiento previo en SAS podemos dejar la información depurada y agregada para R.