<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xml:base="http://www.dataprix.com" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
 <title>Normalización de datos</title>
 <link>http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos</link>
 <description>The taxonomy view with a depth of 0.</description>
 <language>es</language>
<item>
 <title>Datacleansing con Power*MatchMaker</title>
 <link>http://www.dataprix.com/es/datacleansing-con-powermatchmaker</link>
 <description>&lt;p&gt;Power MatchMaker es una herramienta de Data Cleansing que SQLPower ha liberado convirtiendo la licencia en Open Source, junto con la de Power Architect (herramienta para modelizaci&amp;oacute;n de datos). Como no es que haya demasiadas herramientas Open Source en el campo de la limpieza de datos, me ha podido la curiosidad y la he instalado para ver que tal funciona.  La instalaci&amp;oacute;n ha sido muy sencilla, el software se descarga desde &lt;a href=&quot;http://download.sqlpower.ca/matchmaker/current.html&quot; rel=&quot;nofollow&quot;&gt;Descarga de Power MatchMaker&lt;/a&gt;, en diferentes versiones seg&amp;uacute;n el SO. Yo he probado la de windows, que se instala a golpe de bot&amp;oacute;n en 2 minutos. Importante no olvidarse del requerimiento del Java Runtime 5.  Una vez instalado, para ver como funciona lo mejor es seguir el tutorial que se encuentra en la misma ayuda de la herramienta. Tambi&amp;eacute;n recomiendo ver la demo accesible desde la misma &lt;a href=&quot;http://www.sqlpower.ca/page/MatchMaker&quot; rel=&quot;nofollow&quot;&gt;p&amp;aacute;gina de MatchMaker&lt;/a&gt;.  El funcionamiento del software es muy sencillo, se crea un repositorio sobre una de las diferentes BBDD sobre las que puede trabajar, y con las que conecta por JDBC, y se pueden crear proyectos de 3 tipos diferentes: Deduplicaci&amp;oacute;n, Datacleansing y Referencias cruzadas. Eso en teor&amp;iacute;a, porque la funcionalidad de referencias Cruzadas a&amp;uacute;n no est&amp;aacute; implementada y no se puede utilizar.  El proyecto de Datacleansing tampoco aporta nada nuevo, ya que toda la funcionalidad que utiliza es un subconjunto de la que ofrece uno de Deduplicaci&amp;oacute;n, con lo que con crear un proyecto de este &amp;uacute;ltimo tipo ya lo vemos todo.  En cuanto a la deduplicaci&amp;oacute;n, se organiza el proceso en varios pasos:&lt;/p&gt;
&lt;h4&gt;1. Definici&amp;oacute;n de procesos de transformaci&amp;oacute;n de los campos origen y comparaci&amp;oacute;n entre ellos&lt;/h4&gt;
&lt;p&gt;Se pueden definir varios procesos de comparaci&amp;oacute;n, aplicando diferentes operadores a los datos originales para obtener datos m&amp;aacute;s significativos de cara a la comparaci&amp;oacute;n, y se define tambi&amp;eacute;n exactamente lo que se quiere comparar. La interfaz para realizar estas acciones es muy intuitiva y visual, y en un momento se define todo. La pega es que los operadores de comparaci&amp;oacute;n son bastante simples. Aunque hay operadores como los de comparaci&amp;oacute;n fon&amp;eacute;tica, se echan de menos funciones de fuzzy logic para comparar palabras parecidas, o que se trabaje un porcentaje de similitud por campo y por registro. Los resultados finales son que coincida o no todo lo que se ha definido. Lo &amp;uacute;nico que se puede hacer es asignar una prioridad y un color para despu&amp;eacute;s distinguirlo visualmente a cada proceso de comparaci&amp;oacute;n. Se echan tambi&amp;eacute;n de menos funciones espec&amp;iacute;ficas de direcciones u otro tipo de datos &#039;estandar&#039;, aunque hay un operador que realiza una validaci&amp;oacute;n de la direcci&amp;oacute;n con Google Maps. Yo no he conseguido que me funcione, pero es algo a explorar con m&amp;aacute;s calma. Tambi&amp;eacute;n se pueden definir diccionarios de traducci&amp;oacute;n de palabras, cosa muy &amp;uacute;til cuando se comparan nombres o direcciones, por ejemplo.&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img border=&quot;0&quot; alt=&quot;Datacleansing MatchMaker&quot; src=&quot;http://www.dataprix.com/files/match_munge.jpg&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4&gt;2. Ejecuci&amp;oacute;n de la comparaci&amp;oacute;n&lt;/h4&gt;
&lt;p&gt;Nada que destacar, con pocos registros funciona bien, habr&amp;iacute;a que probar con tablas grandes y valorar el rendimiento.&lt;/p&gt;
&lt;h4&gt;3. Validaci&amp;oacute;n de las coincidencias&lt;/h4&gt;
&lt;p&gt;Esta parte tambi&amp;eacute;n est&amp;aacute; muy bien. La herramienta muestra de una manera muy visual las coincidencias encontradas, con un color para cada proceso definido, y permite ver las diferencias entre registros, y descartar coincidencias, decidir cu&amp;aacute;l es el registro maestro (el que va a conservar los datos tras la fuci&amp;oacute;n), y qu&amp;eacute; es lo que se va a fusionar y c&amp;oacute;mo. Por defecto se escogen los datos del registro maestro, a menos que el campo sea nulo, y tambi&amp;eacute;n se pueden concatenar los datos, o coger el m&amp;aacute;ximo, el m&amp;iacute;nimo o la suma de todos. Si se quiere se puede dejar escoger a la herramienta autom&amp;aacute;ticamente el registro que queda como maestro, y hacer que se fusionen todos los registros en los que se ha encontrado coincidencia. La herramienta est&amp;aacute; muy bien para trabajar con un n&amp;uacute;mero limitado de registros, que puedan ser revisados por una persona antes de la fusi&amp;oacute;n, pero le falta un poco de &#039;inteligencia&#039; para poder tratar con un n&amp;uacute;mero elevado de registros, y realizar fusiones sin necesitar intervenci&amp;oacute;n manual. Tambi&amp;eacute;n deber&amp;iacute;a poderse escoger el dato maestro a nivel de campo, y no a nivel de registro, y con los mejores datos de cada campo crear el mejor registro maestro.&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img border=&quot;0&quot; alt=&quot;Validacion Merge MatchMaker&quot; src=&quot;http://www.dataprix.com/files/match_validacion.jpg&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4&gt;4. Proceso de fusi&amp;oacute;n de registros&lt;/h4&gt;
&lt;p&gt;Funciona correctamente, deja un log y guarda los identificadores de lo que se fusiona en una tabla de resultados. S&amp;oacute;lo hay que tener cuidado porque trabaja directamente sobre la tabla origen, y borra los registros que se han marcado como duplicados.&lt;/p&gt;
&lt;h4&gt;Conclusiones&lt;/h4&gt;
&lt;p&gt;En definitiva, es una herramienta muy &amp;uacute;til para realizar procesos de limpieza, sobretodo si la cantidad de datos a revisar no es muy grande. Sin grandes complicaciones permite realizar todo el proceso y facilita mucho la comparaci&amp;oacute;n entre candidatos y la elecci&amp;oacute;n de los registros que quedar&amp;aacute;n como maestros. Tiene varios aspectos a mejorar, pero seguro que no se va a quedar en esta versi&amp;oacute;n, sobretodo sabiendo que ahora es de c&amp;oacute;digo abierto.&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/es/datacleansing-con-powermatchmaker#comments</comments>
 <category domain="http://www.dataprix.com/es/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/data-quality">Calidad de datos</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/deduplicaci-n">Deduplicación</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/es/taxonomy/term/76">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/open-source">Software libre</category>
 <pubDate>Wed, 19 Mar 2008 22:23:16 +0100</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">162 at http://www.dataprix.com</guid>
</item>
<item>
 <title>Datacleansing</title>
 <link>http://www.dataprix.com/es/datacleansing-0</link>
 <description>&lt;p&gt;La limpieza de datos es un proceso que consiste en aplicar una serie de tratamientos a nuestros datos con el objetivo de obtener datos m&amp;aacute;s fiables, que nos aporten informaci&amp;oacute;n m&amp;aacute;s consistente, y que nos faciliten su utilizaci&amp;oacute;n en procesos posteriores, como la integraci&amp;oacute;n con otros datos para su explotaci&amp;oacute;n con herramientas de Business Intelligence.&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/es/datacleansing-0#comments</comments>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/etl">ETL</category>
 <category domain="http://www.dataprix.com/es/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/data-quality">Calidad de datos</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/deduplicaci-n">Deduplicación</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <pubDate>Tue, 12 Jun 2007 08:42:59 +0200</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">67 at http://www.dataprix.com</guid>
</item>
<item>
 <title>Oracle Warehouse Builder 10g disponible sin cargo</title>
 <link>http://www.dataprix.com/es/oracle-warehouse-builder-10g-disponible-sin-cargo</link>
 <description>&lt;p&gt;Si trabajas con bases de datos Oracle y te est&amp;aacute;s planteando la posibilidad de utilizar una herramienta ETL (Extract, Transform &amp;amp; Load) para la alimentaci&amp;oacute;n de un Data warehouse, o simplemente para facilitar integraciones o migraciones de datos, te puede ir muy bien saber que Oracle permite la utilizaci&amp;oacute;n de la versi&amp;oacute;n b&amp;aacute;sica de su herramienta de ETL Oracle Warehouse Builder 10g Release 2, sin coste adicional de licencias. Eso s&amp;iacute;, has de disponer de al menos una licencia de Oracle Database Standard Edition One, Oracle Database Standard Edition o Oracle Database Enterprise Edition.  Para m&amp;aacute;s detalles, consultar el art&amp;iacute;culo de Oracle Press &lt;a href=&quot;http://www.oracle.com/global/lad/corporate/press/2006_sep/oracle_disponibilidad_warehouse_10g.html&quot; rel=&quot;nofollow&quot;&gt;Oracle Anuncia la Disponibilidad General de Oracle Warehouse Builder 10g Release 2&lt;/a&gt;&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/es/oracle-warehouse-builder-10g-disponible-sin-cargo#comments</comments>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/etl">ETL</category>
 <category domain="http://www.dataprix.com/es/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/data-quality">Calidad de datos</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/es/category/bases-de-datos/base-de-datos/oracle">Oracle</category>
 <category domain="http://www.dataprix.com/es/category/bases-de-datos/base-de-datos">Bases de datos</category>
 <pubDate>Wed, 09 May 2007 22:20:50 +0200</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">59 at http://www.dataprix.com</guid>
</item>
<item>
 <title>Limpieza de datos con Oracle Warehouse Builder</title>
 <link>http://www.dataprix.com/es/limpieza-de-datos-con-oracle-warehouse-builder</link>
 <description>&lt;p&gt;En el enlace &lt;a href=&quot;http://www.oracle.com/technology/oramag/oracle/06-nov/o66owb.html&quot; rel=&quot;nofollow&quot;&gt;Managing Data Quality&lt;/a&gt;  se puede acceder a un art&amp;iacute;culo de Ron Hardman sobre c&amp;oacute;mo realizar procesos de limpieza de datos con Oracle Warehouse Builder. El art&amp;iacute;culo comienza con una introducci&amp;oacute;n a la calidad de los datos y maneras de gestionarla, siendo una de ellas la utilizaci&amp;oacute;n de las opciones de limpieza de datos de Oracle Warehouse Builder. Lo interesante es que se muestra c&amp;oacute;mo descargar un script con datos de prueba, y c&amp;oacute;mo configurar la herramienta para probar las utilidades de Profiling, definici&amp;oacute;n de Reglas (Data Rules), y correcci&amp;oacute;n o limpieza de los datos. De esta manera se puede ver y probar de manera sencilla c&amp;oacute;mo implementar un proceso b&amp;aacute;sico de Data Cleansing con esta herramienta.&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/es/limpieza-de-datos-con-oracle-warehouse-builder#comments</comments>
 <category domain="http://www.dataprix.com/es/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/data-quality">Calidad de datos</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/es/category/bases-de-datos/base-de-datos/oracle">Oracle</category>
 <category domain="http://www.dataprix.com/es/category/bases-de-datos/base-de-datos">Bases de datos</category>
 <pubDate>Fri, 04 May 2007 22:13:43 +0200</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">58 at http://www.dataprix.com</guid>
</item>
<item>
 <title>En qué consiste el data cleansing</title>
 <link>http://www.dataprix.com/es/en-qu%C3%A9-consiste-el-data-cleansing</link>
 <description>&lt;p&gt;En el art&amp;iacute;culo del archivo adjunto los autores realizan una exposici&amp;oacute;n bastante completa sobre en qu&amp;eacute; consiste el data cleansing, o limpieza de datos, las principales maneras en que se suele abordar, e incluso qu&amp;eacute; t&amp;eacute;cnicas utilizan las principales compa&amp;ntilde;&amp;iacute;as comerciales que ofrecen este servicio. (Bueno, las que lo ofrec&amp;iacute;an el a&amp;ntilde;o 2000, pero las t&amp;eacute;cnicas principales no han variado mucho desde entonces).&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/es/en-qu%C3%A9-consiste-el-data-cleansing#comments</comments>
 <category domain="http://www.dataprix.com/es/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/es/data-quality">Calidad de datos</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/deduplicaci-n">Deduplicación</category>
 <category domain="http://www.dataprix.com/es/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/es/taxonomy/term/32">Agregación</category>
 <category domain="http://www.dataprix.com/es/taxonomy/term/34">Reglas de asociación</category>
 <category domain="http://www.dataprix.com/es/taxonomy/term/6">Modelos de Clasificación</category>
 <enclosure url="http://www.dataprix.com/es/system/files/IQ2000.pdf" length="43958" type="application/pdf" />
 <pubDate>Tue, 18 Jul 2006 15:33:34 +0200</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">7 at http://www.dataprix.com</guid>
</item>
</channel>
</rss>
