Qualitat de dades

Eines de ETL

0

En la publicació electrònica MCData.ti es pot trobar una classificació bastant completa de diferents eines relacionades amb el business intelligence i la gestió de dades.  Aquesta és la descripció que es realitza de les eines de ETL (Extraction, Transformation and Load).

Empresa: Cognos

Producte: DecisionStream

Descripció: Eina específica per a sistemes SAP i Siebel que permet implantar ràpidament una sèrie de data marts relacionats per compondre un sistema integrat de BI.  Assegura que tots els usuaris tinguin accés a les dades per coordinar de forma eficient l'anàlisi, els informes i la presa de decisions.

Empresa: Computer Associates

Producte: Advantage Data Transformer - Enterprise Metadata Edition

Descripció: Eina de transformació i moviment de dades que permet crear datamarts i magatzems de dades de forma fàcil, transformacions complexes o una gestió robusta de metadades.

Producte: Advantage Data Transformer

Neteja de dades amb Oracle Warehouse Builder

0

En l'enllaç Managing Data Quality es pot accedir a un article de  Ron Hardman sobre com realitzar processos de neteja de dades amb Oracle Warehouse Builder.

L'article comença amb una introducció a la qualitat de les dades i maneres de gestionar-la, una de les quals la utilització de les opcions de neteja de dades d'Oracle Warehouse Builder.

L' interessant és que es mostra com obtenir un script amb dades de prova, i com configurar l'eina per provar les utilitats de Profiling, definició de Regles (Data Rules), i correcció o neteja  de les dades. D' aquesta manera es pot veure i provar de manera senzilla com implementar un procés bàsic de  Data Cleansing amb aquesta eina.

L' article original està en anglès però buscant a la web d'Oracle he trobat els  3 documents que adjunt, traduïts al castella, i relacionats amb OWB i la neteja de dades:

  • Informe Executiu - Oracle Warehouse Builder 11g Versió 1 Informació General
  • Oracle Warehouse Builder Data Quality Option
  • Oracle Warehouse Builder Enterprise ETL Option

 

Data profiling amb SQL Server 2008

0

Data Profile viewer de SSISUna de les múltiples millores que aporta SQL Server 2008 a la part de ETL amb Integration Services és la seva capacitat per realitzar perfilat de dades amb la seva nova Data Profile Task.

El data profiling és una de les primeres tasques que se solen tractar en processos Qualitat de Dades, i consisteix en realitzar una primera anàlisi sobre les dades d'origen, normalment sobre taules, amb l'objectiu de començar a conèixer la seva estructura, format i nivell de qualitat. Se hacen consultas a nivel de tabla, columna, relaciones entre columnas, e incluso relaciones entre tablas. Es fan consultes a nivell de taula, columna, relacions entre columnes, i fins i tot relacions entre taules.

La Data Profile Task de SSIS funciona seleccionant una taula d'una base de dades SQLServer 2000 o superior (no serveixen altres bases de dades), les opcions de perfilat que es vulgui realitzar sobre les dades de la taula, i un fitxer XML d'emmagatzematge els resultats quan s'executi la mateixa...

Data profiles de SQL Server IS emmagatzemats en taules

3

La tasca de Data Profile de SQL Server Information Services emmagatzema els resultats del perfilat en un document XML que es pot examinar amb el Data Profile Viewer. En l'article Dataprofiling amb SQL Server 2008 explico com s'utilitza aquesta nova Task de SSIS.

Encara que aquest mètode sigui molt senzill, de vegades pot no ser suficient. Si es tracta un projecte de qualitat de dades pot interessar, per exemple, emmagatzemar un històric dels perfilats per poder avaluar com ha anat millorant la qualitat de les dades tractades.

La millor manera de treballar amb dades històriques és utilitzant una base de dades i emmagatzemant aquestes dades en taules, sobre les quals es podran fer les consultes, informes i comparatives que calgui. Per aconseguir-ho l'únic que caldria és passar a taules les metadades que la tasca de perfilat ha emmagatzemat en el fitxer XML.

Informe sobre Pervasive Business Intelligence

4

Pervasive Business Intelligence es podria traduir com Business Intelligence omnipresent, almenys a nivell d'empresa. Es tracta de fer que el sistema de BI arribi a tots els nivells de l'organització, en el moment oportú, i amb la informació necessària per a cadascun. Pot abastar fins i tot la integració amb altres sistemes, normalment operacionals, i també contemplar capacitats d'interacció, no només d'accés a la informació.

En TDWI han realitzat un estudi sobre el grau d'introducció de les eines de BI a les empreses. Van utilitzar com a base una enquesta realitzada a més de 700 persones implicades en projectes de BI i entrevistes en profunditat realitzades a més de 20 proveïdors o professionals del món BI.

El resultat d'aquest estudi és l'informe Pervasive Business Intelligence, Techniques and Technologies to Deploy BI on an Enterprise Scale, del qual pas a resumir el que em sembla més rellevant:

Resultats de l'enquesta

Adopció d'eines de BI i grau d'utilització

Contingut sindicat