gustavog | Dataprix

Member for

6 years 9 months

Publicaciones

Análisis cluster basado en campos alfanuméricos

By gustavog on Fri, 06/30/2017 - 20:06

Forums

Data Science

Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

"Santiago Hernandez; Avenida Olleros 1234;"

"Santiago Hernandes; Avda Olleros 1234;"
Read more about Análisis cluster basado en campos alfanuméricos
2 comments
Log in to post comments
Análisis cluster basado en campos alfanuméricos

By gustavog on Fri, 06/30/2017 - 18:46

Forums

Data Science

Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

"Santiago Hernandez; Avenida Olleros 1234;"

"Santiago Hernandes; Avda Olleros 1234;"
Read more about Análisis cluster basado en campos alfanuméricos
Log in to post comments

Prueba Semrush gratis 14 días!