Power MatchMaker es una herramienta de Data Cleansing que SQLPower ha liberado convirtiendo la licencia en Open Source, junto con la de Power Architect (herramienta para modelización de datos). Como no es que haya demasiadas herramientas Open Source en el campo de la limpieza de datos, me ha podido la curiosidad y la he instalado para ver que tal funciona. La instalación ha sido muy sencilla, el software se descarga desde Descarga de Power MatchMaker, en diferentes versiones según el SO. Yo he probado la de windows, que se instala a golpe de botón en 2 minutos. Importante no olvidarse del requerimiento del Java Runtime 5. Una vez instalado, para ver como funciona lo mejor es seguir el tutorial que se encuentra en la misma ayuda de la herramienta. También recomiendo ver la demo accesible desde la misma página de MatchMaker. El funcionamiento del software es muy sencillo, se crea un repositorio sobre una de las diferentes BBDD sobre las que puede trabajar, y con las que conecta por JDBC, y se pueden crear proyectos de 3 tipos diferentes: Deduplicación, Datacleansing y Referencias cruzadas.
La limpieza de datos es un proceso que consiste en aplicar una serie de tratamientos a nuestros datos con el objetivo de obtener datos más fiables, que nos aporten información más consistente, y que nos faciliten su utilización en procesos posteriores, como la integración con otros datos para su explotación con herramientas de Business Intelligence.
En el artículo del archivo adjunto los autores realizan una exposición bastante completa sobre en qué consiste el data cleansing, o limpieza de datos, las principales maneras en que se suele abordar, e incluso qué técnicas utilizan las principales compañías comerciales que ofrecen este servicio. (Bueno, las que lo ofrecían el año 2000, pero las técnicas principales no han variado mucho desde entonces).