gustavog

Publicaciones

  • Análisis cluster basado en campos alfanuméricos

    Forums

    Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

    El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

    Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

     

    Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

    "Santiago Hernandez; Avenida Olleros 1234;"

    "Santiago Hernandes; Avda Olleros 1234;"

     

  • Análisis cluster basado en campos alfanuméricos

    Forums

    Buenas, estoy empezando en este mundo del data mining y tengo una duda sobre si es posible hacer algo que estamos queriendo hacer.

    El problema es el siguiente: tenemos un archivo (10 millones de registros aproximadamente) con nombre, apellido, domicilio, etc. Sabemos que hay un número importante de registros repetidos ( que corresponden a la misma persona ) pero escritos diferente, con faltas de ortografía, variaciones en el formato del domicilio, etc.

    Para detectarlos, lo que habíamos pensado era ejecutar algún tipo de análisis cluster para lograr agrupar los nombres similares, y obtener un número razonable de registros que "a priori serían el mismo" para revisarlos manualmente.

     

    Por ejemplo, quisieramos que los siguientes 2 registros se agrupen en un mismo cluster:

    "Santiago Hernandez; Avenida Olleros 1234;"

    "Santiago Hernandes; Avda Olleros 1234;"