<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xml:base="http://www.dataprix.com" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
 <title>Limpieza de datos</title>
 <link>http://www.dataprix.com/ca/taxonomy/term/76</link>
 <description>The taxonomy view with a depth of 0.</description>
 <language>ca</language>
<item>
 <title>Datacleansing amb Power*MatchMaker</title>
 <link>http://www.dataprix.com/ca/datacleansing-amb-powermatchmaker</link>
 <description>&lt;p class=&quot;MsoNormal&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Power MatchMaker &amp;eacute;s una eina de Data Cleansing que SQLPower ha alliberat transformant la llic&amp;egrave;ncia en Open Source, juntament amb la de Power Architect (eina per a la modelitzaci&amp;oacute; de dades). Com que no &amp;eacute;s que hi hagi massa eines&lt;span style=&quot;&quot;&gt; &lt;/span&gt;Open Source en el camp de la neteja de dades, m&amp;rsquo;ha pogut la curiositat&lt;span style=&quot;&quot;&gt; &lt;/span&gt;i la he instal.lat per&lt;span style=&quot;&quot;&gt; &lt;/span&gt;veure qu&amp;eacute; tal funciona. La instal&amp;middot;laci&amp;oacute; ha estat molt senzilla, el software es descarrega des de&lt;span style=&quot;&quot;&gt; &lt;/span&gt;&lt;a href=&quot;http://download.sqlpower.ca/matchmaker/current.html&quot; rel=&quot;nofollow&quot;&gt;desc&amp;agrave;rrega de Power MatchMaker&lt;/a&gt;, en diferents versions segons el SO. Jo he provat la de Windows, que s&amp;rsquo;instal&amp;middot;la en 2 minuts nom&amp;eacute;s amb uns quants clicks. &amp;Eacute;s important no oblidar-se del requeriment del Java Runtime 5. &lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Una vegada &lt;span style=&quot;&quot;&gt;&amp;nbsp;&lt;/span&gt;instal&amp;middot;lat, per a veure com funciona el millor &amp;eacute;s seguir el tutorial que es troba en la mateixa ajuda de l&amp;rsquo;eina. Tamb&amp;eacute; recomano veure la demo accessible des de la mateixa &lt;a href=&quot;http://www.sqlpower.ca/page/MatchMaker&quot; rel=&quot;nofollow&quot;&gt;p&amp;agrave;gina de MatchMaker&lt;/a&gt;. &lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;El funcionament del software &amp;eacute;s molt senzill, es crea un repositori sobre una de les diferents BBDD sobre les que&lt;span style=&quot;&quot;&gt;&amp;nbsp; &lt;/span&gt;es pot treballar, i amb les que connecta per JDBC, i es poden crear projectes de 3 tipus diferents:&lt;span style=&quot;&quot;&gt; &lt;/span&gt;Deduplicaci&amp;oacute;, Datacleansing i Refer&amp;egrave;ncies creuades. Aix&amp;ograve;&lt;span style=&quot;&quot;&gt; &lt;/span&gt;en teoria, perqu&amp;egrave; la &lt;span style=&quot;&quot;&gt;&amp;nbsp;&lt;/span&gt;funcionalitat de refer&amp;egrave;ncies creuades encara no est&amp;agrave; implementada i no es pot utilitzar. El projecte de Datacleansing tampoc aporta res de nou, ja que tota la funcionalitat que fa servir &amp;eacute;s un subconjunt de la que n&amp;rsquo;ofereix un de Deduplicaci&amp;oacute;, amb la qual cosa nom&amp;eacute;s creant un projecte d&amp;rsquo;aquest &amp;uacute;ltim tipus ja ho veiem tot. Quant a la deduplicaci&amp;oacute;, s&amp;rsquo;organitza el proc&amp;eacute;s en diferents etapes:&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&amp;nbsp;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-indent: -18pt;&quot;&gt;&lt;!--[if !supportLists]--&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;span style=&quot;&quot;&gt;1.&lt;span style=&quot;font-family: &amp;quot;Times New Roman&amp;quot;; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;!--[endif]--&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Definici&amp;oacute; de processos de transformaci&amp;oacute; dels camps origen i comparaci&amp;oacute; entre ells&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&amp;nbsp;&lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&amp;Eacute;s poden definir diversos processos de comparaci&amp;oacute; aplicant diferents operadors a les dades originals per obtenir dades m&amp;eacute;s significatives de cara a la comparaci&amp;oacute;, i es defineix tamb&amp;eacute; exactament el que es vol comparar. La interfase per realitzar aquestes accions &amp;eacute;s molt intu&amp;iuml;tiva i visual, i de seguida es defineix tot. La pega &amp;eacute;s que els operadors de comparaci&amp;oacute; s&amp;oacute;n bastant simples. Encara que hi ha operadors com els de comparaci&amp;oacute; fon&amp;egrave;tica, &amp;eacute;s troben a faltar funcions de fuzzy logic per comparar paraules semblants, o que es treballi un percentatge de similitud per camp i per registre. Els resultats finals s&amp;oacute;n que coincideixin o no tot el que s&amp;rsquo;ha definit. L&amp;rsquo;&amp;uacute;nic que es pot fer &amp;eacute;s assignar una prioritat i un color per despr&amp;egrave;s distingir-lo visualment a cada proc&amp;eacute;s de comparaci&amp;oacute;. Es troben a faltar tamb&amp;eacute; funcions espec&amp;iacute;fiques de tractament d&#039;adreces o d&#039;altre s tipus de dades &lt;em&gt;est&amp;agrave;ndard &lt;/em&gt;encara que n&#039;hi ha un operador que realitza una validaci&amp;oacute; de l&amp;rsquo;adre&amp;ccedil;a amb Google Maps. Jo no he aconseguit que funcioni, per&amp;ograve; &amp;eacute;s una cosa que s&amp;rsquo;ha d&amp;rsquo;explorar en m&amp;eacute;s calma. Tamb&amp;eacute; es poden definir diccionaris de traducci&amp;oacute; de paraules, cosa molt &amp;uacute;til quan es comparen noms o adreces, per exemple. &lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;span style=&quot;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img border=&quot;0&quot; src=&quot;http://www.dataprix.com/files/match_munge.jpg&quot; alt=&quot;Datacleansing MatchMaker&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-indent: -18pt;&quot;&gt;&lt;!--[if !supportLists]--&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;span style=&quot;&quot;&gt;2.&lt;span style=&quot;font-family: &amp;quot;Times New Roman&amp;quot;; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;!--[endif]--&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Execuci&amp;oacute; de la comparaci&amp;oacute;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal rteindent4&quot; style=&quot;margin-left: 27pt; text-indent: -18pt;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/span&gt;&lt;span lang=&quot;CA&quot;&gt;Res a destacar, amb a pocs registres funciona b&amp;eacute;, s&#039;hauria de provar amb taules grans i valorar el rendiment&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&amp;nbsp;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-indent: -18pt;&quot;&gt;&lt;!--[if !supportLists]--&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;span style=&quot;&quot;&gt;3.&lt;span style=&quot;font-family: &amp;quot;Times New Roman&amp;quot;; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Validaci&amp;oacute; de les coincid&amp;egrave;ncies&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-align: justify;&quot;&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;Aquesta part tamb&amp;eacute; est&amp;agrave; molt b&amp;eacute;. La eina mostra d&amp;rsquo;una forma molt visual les coincid&amp;egrave;ncies trobades, amb un color per cada procediment definit, i permet veure les diferencies entre&lt;span style=&quot;&quot;&gt; &lt;/span&gt;els registres, i destacar coincid&amp;egrave;ncies, decidir quin &amp;eacute;s el registre mestre (el que conservar&amp;agrave; les dades despr&amp;eacute;s de la funci&amp;oacute;), i qu&amp;egrave; &amp;eacute;s el que s&#039;ha de fusionar i com. Per defecte s&amp;rsquo;escullen les dades del registre mestre, a menys que el camp contingui un nul, i tamb&amp;eacute; &amp;eacute;s poden concatenar les dades, o agafar el m&amp;agrave;xim, el m&amp;iacute;nim o la suma de tots els valors. Si es vol es pot deixar triar a l&amp;rsquo;eina autom&amp;agrave;ticament el registre que queda com a mestre, i fer que es fusionin tots els registres en els que s&amp;rsquo;ha trobat coincid&amp;egrave;ncia. &lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-align: justify;&quot;&gt;La eina est&amp;agrave; molt b&amp;eacute; per treballar amb un nombre limitat de registres, que pugin ser revisats per una persona abans de la fusi&amp;oacute;, per&amp;ograve; li falta una mica&lt;span style=&quot;&quot;&gt; &lt;/span&gt;&lt;em&gt;d&amp;rsquo;intel&amp;middot;lig&amp;egrave;ncia&lt;/em&gt; per poder treballar amb un nombre elevat de registres, i realitzar fusions sense necessitat d&#039;intervenci&amp;oacute; manual. Tamb&amp;eacute; hauria de poder escollir-se&lt;span style=&quot;&quot;&gt; &lt;/span&gt;la dada mestra a nivell de camp, i no a nivell de registre, i amb les millors dades de cada camp crear el millor registre mestre.&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 27pt; text-align: justify;&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img border=&quot;0&quot; src=&quot;http://www.dataprix.com/files/match_validacion.jpg&quot; alt=&quot;Validacion Merge MatchMaker&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;4. Proc&amp;eacute;s de fusi&amp;oacute; de registres &lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&amp;nbsp;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;span lang=&quot;CA&quot;&gt;Funciona correctament, deixa un log i guarda els identificadors del que &amp;eacute;s fusiona en una taula de resultats. Nom&amp;eacute;s cal anar amb compte perqu&amp;egrave; treballa directament sobre la &lt;span class=&quot;alternative&quot;&gt;taula&lt;/span&gt; origen, i esborra els registres que s&#039;han marcat &lt;span class=&quot;alternative&quot;&gt;com a&lt;/span&gt; duplicats.&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt; &lt;/o:p&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;b style=&quot;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;Conclusions&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p class=&quot;MsoNormal&quot; style=&quot;margin-left: 18pt;&quot;&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&amp;nbsp;&lt;/o:p&gt;&lt;/span&gt;&lt;span lang=&quot;CA&quot;&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/span&gt;&lt;span lang=&quot;CA&quot;&gt;En definitiva, &amp;eacute;s una eina molt &amp;uacute;til per realitzar processos de &lt;span class=&quot;alternative&quot;&gt;neteja&lt;/span&gt;, sobretot si la quantitat de dades a revisar no &amp;eacute;s gaire gran. Sense grans complicacions permet realitzar tot el proc&amp;eacute;s i facilita molt la comparaci&amp;oacute; entre candidats i l&#039;elecci&amp;oacute; dels registres que quedaran &lt;span class=&quot;alternative&quot;&gt;com a&lt;/span&gt; mestres. T&amp;eacute; alguns aspectes a millorar, per&amp;ograve; ben segur que no es quedar&amp;agrave; en aquesta versi&amp;oacute;, sobretot sabent que ara &amp;eacute;s una aplicaci&amp;oacute; de codi obert.&lt;b style=&quot;&quot;&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/ca/datacleansing-amb-powermatchmaker#comments</comments>
 <category domain="http://www.dataprix.com/ca/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/ca/category/calidad-datos/limpieza-datos/deduplicaci-n">Deduplicación</category>
 <category domain="http://www.dataprix.com/ca/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/ca/taxonomy/term/76">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/ca/open-source">Software libre</category>
 <pubDate>Tue, 17 Jun 2008 19:37:39 +0200</pubDate>
 <dc:creator>carlos</dc:creator>
 <guid isPermaLink="false">207 at http://www.dataprix.com</guid>
</item>
</channel>
</rss>
