Perfilado de datos

Informatica 9, una completa plataforma de Integración de Datos

9.6

Informatica 9 y el ciclo de vida completo de la Integración de DatosEn el mercado de la Integración de Datos uno de los fabricantes líderes es Informatica. Esta compañía es el primer proveedor independiente de software de Integración de Datos. Su herramienta más conocida, y el corazón de su plataforma, es Informatica PowerCenter, que ya ha pasado por muchas versiones, y es una referencia en el mundo de la Integración. 

Pero aparte de PowerCenter, Informatica también dispone de otras herramientas que se orientan a propósitos más específicos, a la vez que se integran dentro de la plataforma, y siempre en el marco de la Integración de Datos...

Data profiles de SQL Server IS almacenados en tablas

6

 

La tarea de Data Profile de SQL Server Information Services almacena los resultados del perfilado en un documento XML que se puede examinar con el Data Profile Viewer. En el artículo Dataprofiling con SQL Server 2008 explico cómo se utiliza esta nueva Task de SSIS.

Aunque este método sea muy sencillo, a veces puede no resultar suficiente. Si se aborda un proyecto de calidad de datos puede interesar, por ejemplo, almacenar un histórico de los perfilados para poder evaluar cómo ha ido mejorando la calidad de los datos tratados.

La mejor manera de trabajar con datos históricos es utilizando una base de datos y almacenando estos datos en tablas, sobre las que se podrán hacer las consultas, informes y comparativas que haga falta. Para conseguirlo lo único que haría falta es pasar a tablas los metadatos que la tarea de perfilado ha almacenado en el fichero XML...

Data profiling con SQL Server 2008

6

Data Profile viewer de SSISUna de las múltiples mejoras que aporta SQL Server 2008 en la parte de ETL con Integration Services es su capacidad para realizar perfilado de datos con su nueva Data Profile Task.

El data profiling es una de las primeras tareas que se suelen abordar en procesos Calidad de Datos, y consiste en realizar un primer análisis sobre los datos de origen, normalmente sobre tablas, con el objetivo de empezar a conocer su estructura, formato y nivel de calidad. Se hacen consultas a nivel de tabla, columna, relaciones entre columnas, e incluso relaciones entre tablas.

 

La Data Profile Task de SSIS funciona seleccionando una tabla de una base de datos SQLServer 2000 o superior (no sirven otras bases de datos), las opciones de perfilado que se quiera realizar sobre los datos de la tabla, y un fichero XML donde se almacenarán los resultados cuando se ejecute la misma...

Datacleansing con Power*MatchMaker/ DQGuru

8

DQGuru (antes Power MatchMaker) es una herramienta de Data Cleansing que SQLPower liberó convirtiendo la licencia en Open Source, junto con la de Power Architect (herramienta para modelización de datos).

Como no es que haya demasiadas herramientas Open Source en el campo de la limpieza de datos, me ha podido la curiosidad y la he instalado para ver que tal funciona.

La instalación ha sido muy sencilla, el software se descarga desde Descarga de DQGuru, en diferentes versiones según el SO. Yo he probado la de windows, que se instala a golpe de botón en 2 minutos. Importante no olvidarse del requerimiento del Java Runtime 5...

Limpieza de datos con Oracle Warehouse Builder

6

En el enlace Managing Data Quality se puede acceder a un artículo de Ron Hardman sobre cómo realizar procesos de limpieza de datos con Oracle Warehouse Builder.

El artículo comienza con una introducción a la calidad de los datos y maneras de gestionarla, siendo una de ellas la utilización de las opciones de limpieza de datos de Oracle Warehouse Builder.

Lo interesante es que se muestra cómo descargar un script con datos de prueba, y cómo configurar la herramienta para probar las utilidades de Profiling, definición de Reglas (Data Rules), y corrección o limpieza de los datos. De esta manera se puede ver y probar de manera sencilla cómo implementar un proceso básico de Data Cleansing con esta herramienta.

El artículo original está en inglés pero buscando en la web de Oracle he encontrado los 3 documentos que adjunto, traducidos al castellano, y relacionados con OWB y la limpieza de datos:

  • Informe Ejecutivo - Oracle Warehouse Builder 11g Versión 1 Información General
  • Oracle Warehouse Builder Data Quality Option
  • Oracle Warehouse Builder Enterprise ETL Option

 

Distribuir contenido

Últimos estados

Investigando

   - negrito_cl hace 1 día -

Busco Consultor ARTUS para proyecto en Panamá, será contratado en Mx, al concluir regresará en México.Enviar CV bhernandez@intellego.com.mx

   - Intellego hace 3 días -

Intellego es líder en consultoría y servicios para la gestión de información.

   - Intellego hace 3 días -

Infográfico sobre el nuevo escenario de la información http://bit.ly/dflh8B

   - carlos hace 1 semana -

Anunciando el laboratorio de Dataprix: www.labs.dataprix.com

   - carlos hace 1 semana -