<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xml:base="http://www.dataprix.com" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
 <title>Software libre</title>
 <link>http://www.dataprix.com/it/open-source</link>
 <description>The taxonomy view with a depth of 0.</description>
 <language>it</language>
<item>
 <title>Datacleansing con Power*MatchMaker</title>
 <link>http://www.dataprix.com/it/datacleansing-con-powermatchmaker-0</link>
 <description>&lt;p&gt;Power MatchMaker è uno strumento di Data Cleansing che SQLPower ha liberato convertendo la licenza a Open Source, insieme al quella di Power Architect (strumento per la modellizzazione).&lt;br /&gt;
Dal momento che non ci sono molti strumenti Open Source nel campo del data cleansing, mi ha incuriosito e l’ho installato per vedere come va.&lt;br /&gt;
L’installazione non ha dato nessun problema, il software si scarica da &lt;a href=&quot;http://download.sqlpower.ca/matchmaker/current.html&quot; rel=&quot;nofollow&quot;&gt;Download di Power MatchMaker&lt;/a&gt;, in diverse versioni a seconda del SO. Io ho provato la versione per windows, che si installa a colpi di click in un paio di minuti.&lt;br /&gt;
E’ importante non dimenticarsi del richiesto Java Runtime 5.&lt;br /&gt;
Una volta installato, per valutarne il funzionamento la cosa migliore da fare è seguire la guida che si trova nell’help dell’applicazione. Raccomando anche di vedere la demo accessibile sulla pagina web &lt;a href=&quot;http://www.sqlpower.ca/page/MatchMaker&quot; rel=&quot;nofollow&quot;&gt;pagina di MatchMaker&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Il funzionamento del software è molto semplice, si crea un database in una delle diverse piattaforme sulle quali è possibile lavorare, con la quale ci si connette via JDBC, dopodichè si crea un progetto. Le tipologie di progetto disponibili sono di tre tipi: Deduplicazione, Datacleansing y Riferimenti incrociati.&lt;br /&gt;
Questo in teoria, perchè la funzionalità di riferimenti incrociati non è disponibile in quanto non ancora implementata.&lt;br /&gt;
Gli altri due tipi di progetto sono disponibili, ma il progetto di Datacleansing è non aggiunge nulla di nuovo, visto che tutta la funzionalità che utilizza è un sottoinsieme di ciò che offre il progetto di deduplicazione, per cui creando un progetto di quest’ultimo tipo abbiamo già tutte le funzionalità disponibili.&lt;br /&gt;
Descrivo quindi le diverse fasi per organizzare il funzionamento del progetto di deduplicazione:&lt;/p&gt;
&lt;p&gt;&lt;BR&gt;&lt;br /&gt;
&lt;H4&gt;1. Definizione di processi de trasformazione dei campi origine e confronto tra di essi&lt;/H4&gt;&lt;br /&gt;
All’interno di un progetto si possono definire diversi processi di confronto; ciò si realizza applicando differenti operatori ai dati originali per ottenere dati più significativi per la realizzazione del confronto, nello stesso tempo si definisce esattamente quello che si vuole confrontare. L’interfaccia per realizzare queste attività è molto intuitiva, e la definizione dei processi aviene in modo agile da parte dell’utente.&lt;br /&gt;
L’inconveniente che però ho rilevato è che gli operatori di confronto sono relativamente semplici.&lt;br /&gt;
Infatti, nonostante ci siano operatori come quello di comparazione fonetica, mancano funzioni di fuzzy logic per confrontare parole simili, oppure manca il fatto che si possa confrontare una percentuale di somiglianza per campo o per record. I risultati finali risultano essere quindi di tipo booleano coincide/non coincide tutto ciò che è stato richiesto di verificare, senza sfumature in percentuale.&lt;br /&gt;
L’approccio è prettamente visuale, tant’è che si può assegnare una priorità e un colore ad ogni processo per poterlo successivamente distinguere a colpo d’occhio.&lt;br /&gt;
Mancano anche funzioni specifiche che trattino gli indirizzi postali o altro tipo di dato ‘standard’, nonostante ci sia un operatore che realizza una verifica di indirizzi postali con Google Maps. Non sono però riuscito a farlo funzionare, probabilmente perchè è una funzionalità sulla quale bisogna dedicare più tempo.&lt;br /&gt;
E’ possibile anche definire dizionari di traduzione di parole, molto utile quando si confrontano nomi o indirizzi postali.&lt;br /&gt;
&lt;BR&gt;&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img src=&quot;http://www.dataprix.com/files/match_munge.jpg&quot; border=&quot;0&quot; alt=&quot;Datacleansing MatchMaker&quot;&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;BR&gt;&lt;br /&gt;
&lt;H4&gt;2. Esecuzione del confronto&lt;/H4&gt;&lt;br /&gt;
L’esecuzione del confronto non da problemi, ma per avere una valutazione più approfondita bisognerebbe provare con tabelle grandi e valutarne il rendimento. &lt;BR&gt;&lt;br /&gt;
&lt;H4&gt;3. Verifica delle coincidenze&lt;/H4&gt;&lt;br /&gt;
Power MatchMaker mostra in un modo molto intuitivo le coincidenze trovate, con un colore per ogni processo definito, permette di visualizzare le diferenze fra i vari record, e scartare le coincidenze, permette all’utente di decidere qual è il record master (quello che manterrà i dati dopo la fusione), con quali elementi e come avverrà la fusione. Per default verranno scelti i dati del record master, a meno che il campo sia vuoto, volendo si possono concatenare i dati, prelevare il massimo, il minimo o la loro somma.&lt;br /&gt;
Si può anche non scegliere il record master, in questo caso sarà Power MatchMaker a decidere. Inoltre possiamo fare in modo che in automatico si fondino tutti i record che coincidono.&lt;br /&gt;
Power MatchMaker va sicuramente molto bene per lavorare con un numero limitato di record, che possano essere controllati manualmente prima della loro fusione, però gli manca un po’ di ‘intelligenza’ per poter trattare un numero di record elevato e realizzare fusioni per coincidenze parziali.&lt;br /&gt;
Dovrebbe inoltre essere data la possibilità di scegliere il dato master a livello di campo e non solo di record, e con i dati migliori di ogni campo creare il miglior record master.&lt;br /&gt;
&lt;BR&gt;&lt;/p&gt;
&lt;p align=&quot;center&quot;&gt;&lt;img src=&quot;http://www.dataprix.com/files/match_validacion.jpg&quot; border=&quot;0&quot; alt=&quot;Validacion Merge MatchMaker&quot;&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;BR&gt;&lt;br /&gt;
&lt;H4&gt;4. Processo di fusione di record&lt;/H4&gt;&lt;br /&gt;
Funziona correttamente, crea un log e salva gli ID di ciò che si fonde in una tabella di risultati. Attenzione però, perchè lavora direttamente sulla tabella origine, e cancella fisicamente i record che sono stati selezionati come duplicati.&lt;br /&gt;
&lt;BR&gt;&lt;br /&gt;
&lt;H4&gt;Conclusioni&lt;/H4&gt;&lt;br /&gt;
In conclusione, Power MatchMaker è uno strumento molto utile per realizzare processi di pulizia, soprattutto se la quantità di dati da controllare non è molto grande. Senza troppe complicazioni pemette di realizzare tutto il processo di pulizia e facilita molto il confronto tra candidati e la scelta dei record master. Offre maneggevolezza ed ha un approccio intuitivo.&lt;br /&gt;
Ha diversi aspetti da migliorare, e sicuramente non si fermerà all’attuale versione, soprattutto dal momento che ora il codice è aperto.&lt;/p&gt;
&lt;p&gt;Tradotto dall&#039;originale spagnolo &lt;a href=&quot;http://dataprix.com/es/datacleansing-con-powermatchmaker&quot; title=&quot;http://dataprix.com/es/datacleansing-con-powermatchmaker&quot;&gt;http://dataprix.com/es/datacleansing-con-powermatchmaker&lt;/a&gt;&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/it/datacleansing-con-powermatchmaker-0#comments</comments>
 <category domain="http://www.dataprix.com/it/datacleansing">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/it/category/calidad-datos/limpieza-datos/deduplicaci-n">Deduplicación</category>
 <category domain="http://www.dataprix.com/it/category/calidad-datos/limpieza-datos/normalizaci-n-datos">Normalización de datos</category>
 <category domain="http://www.dataprix.com/it/taxonomy/term/76">Limpieza de datos</category>
 <category domain="http://www.dataprix.com/it/open-source">Software libre</category>
 <pubDate>Wed, 19 Mar 2008 22:23:16 +0100</pubDate>
 <dc:creator>carlo</dc:creator>
 <guid isPermaLink="false">172 at http://www.dataprix.com</guid>
</item>
<item>
 <title>Conferenza della community Alfresco a Barcellona</title>
 <link>http://www.dataprix.com/it/conferenza-della-community-alfresco-barcellona</link>
 <description>&lt;p&gt;Veniamo a conoscenza dalla pagina principale di &lt;a href=&quot;http://www.alfresco.com&quot; rel=&quot;nofollow&quot;&gt;Alfresco&lt;/a&gt;  che il prossimo 22 aprile si terrà a Barcellona una delle due conferenze programmate a livello mondiale della community Alfresco.&lt;/p&gt;
&lt;p&gt;Avrà lougo nella &lt;a href=&quot;http://www.idec.upf.edu/en/seccions/generic/com_arribar.php&quot; rel=&quot;nofollow&quot;&gt;IDEC - Universidad Pompeu Fabra&lt;/a&gt;. La durata sarà di due giorni, sembra che il primo giorno sarà dedicato a fornitori e membri rilevanti della community. Il secondo, che interesserà la maggioranza degli utenti, sarà aperto a tutti. Dopo la tradizionale registrazione. Come ovvio...&lt;/p&gt;
&lt;p&gt;Altri dettagli su, &lt;a href=&quot;http://www.alfresco.com/about/events/2008/04/cc-emea-0408/&quot; rel=&quot;nofollow&quot;&gt;Alfresco&lt;/a&gt;&lt;/p&gt;
</description>
 <comments>http://www.dataprix.com/it/conferenza-della-community-alfresco-barcellona#comments</comments>
 <category domain="http://www.dataprix.com/it/knowledge">Gestión del conocimiento</category>
 <category domain="http://www.dataprix.com/it/open-source">Software libre</category>
 <pubDate>Mon, 10 Mar 2008 21:49:15 +0100</pubDate>
 <dc:creator>carlo</dc:creator>
 <guid isPermaLink="false">169 at http://www.dataprix.com</guid>
</item>
</channel>
</rss>
