Calidad de datos
Data profiles de SQL Server IS almacenados en tablas
Submitted by carlos on 19 August, 2009 - 13:24
La tarea de Data Profile de SQL Server Information Services almacena los resultados del perfilado en un documento XML que se puede examinar con el Data Profile Viewer. En el artículo Dataprofiling con SQL Server 2008 explico cómo se utiliza esta nueva Task de SSIS.
Aunque este método sea muy sencillo, a veces puede no resultar suficiente. Si se aborda un proyecto de calidad de datos puede interesar, por ejemplo, almacenar un histórico de los perfilados para poder evaluar cómo ha ido mejorando la calidad de los datos tratados.
La mejor manera de trabajar con datos históricos es utilizando una base de datos y almacenando estos datos en tablas, sobre las que se podrán hacer las consultas, informes y comparativas que haga falta. Para conseguirlo lo único que haría falta es pasar a tablas los metadatos que la tarea de perfilado ha almacenado en el fichero XML...
- Leer más
- 1092 lecturas
-
Data profiling con SQL Server 2008
Submitted by carlos on 17 August, 2009 - 18:47
Una de las múltiples mejoras que aporta SQL Server 2008 en la parte de ETL con Integration Services es su capacidad para realizar perfilado de datos con su nueva Data Profile Task.
El data profiling es una de las primeras tareas que se suelen abordar en procesos Calidad de Datos, y consiste en realizar un primer análisis sobre los datos de origen, normalmente sobre tablas, con el objetivo de empezar a conocer su estructura, formato y nivel de calidad. Se hacen consultas a nivel de tabla, columna, relaciones entre columnas, e incluso relaciones entre tablas.
La Data Profile Task de SSIS funciona seleccionando una tabla de una base de datos SQLServer 2000 o superior (no sirven otras bases de datos), las opciones de perfilado que se quiera realizar sobre los datos de la tabla, y un fichero XML donde se almacenarán los resultados cuando se ejecute la misma...
- Leer más
- 1120 lecturas
-
Informe sobre Pervasive Business Intelligence
Submitted by carlos on 26 March, 2009 - 16:05Pervasive Business Intelligence se podría traducir como Business Intelligence Omnipresente, al menos a nivel de empresa. Se trata de hacer que el sistema de BI llegue a todos los niveles de la organización, en el momento oportuno, y con la información necesaria para cada uno. Puede abarcar incluso la integración con otros sistemas, normalmente operacionales, y también contemplar capacidades de interacción, no sólo de acceso a la información.
En TDWI han realizado un estudio sobre el grado de introducción de las herramientas de BI en las empresas. Utilizaron como base una encuesta realizada a más de 700 personas implicadas en proyectos de BI y entrevistas en profundidad realizadas a más de 20 proveedores o profesionales del mundo BI.
El resultado de este estudio es el informe Pervasive Business Intelligence, Techniques and Technologies to Deploy BI on an Enterprise Scale, del que paso a resumir lo que me parece más relevante:
Resultados de la encuesta
Adopción de herramientas de BI y grado de utilización
- Leer más
- 1626 lecturas
-
Datacleansing con Power*MatchMaker/ DQGuru
Submitted by carlos on 19 March, 2009 - 09:50
DQGuru (antes Power MatchMaker) es una herramienta de Data Cleansing que SQLPower liberó convirtiendo la licencia en Open Source, junto con la de Power Architect (herramienta para modelización de datos).
Como no es que haya demasiadas herramientas Open Source en el campo de la limpieza de datos, me ha podido la curiosidad y la he instalado para ver que tal funciona.
La instalación ha sido muy sencilla, el software se descarga desde Descarga de DQGuru, en diferentes versiones según el SO. Yo he probado la de windows, que se instala a golpe de botón en 2 minutos. Importante no olvidarse del requerimiento del Java Runtime 5. Una vez instalado, para ver como funciona lo mejor es seguir el tutorial que se encuentra en la misma ayuda de la herramienta. También recomiendo ver la demo accesible desde la misma página de DQGuru.
El funcionamiento del software es muy sencillo, se crea un repositorio...
- Leer más
- 560 lecturas
-
Dataclean.es: un proyecto de servicios de limpieza de datos
Submitted by carlos on 12 December, 2008 - 12:23Hace ya bastante tiempo me planteé la posibilidad de arrancar un proyecto para ofrecer servicios de limpieza de datos online. Si hablamos en términos de lo que ara se oye más, podríamos interpretarlo como un nuevo significado de las siglas DAAS: Datacleansing As A Service.
En aquel momento escogí el nombre de Dataclean.es, entre otras cosas porque el dominio estaba libre. Lo registré a mi nombre e hice una aproximación a un plan de empresa. Hasta comencé a preparar una web donde quería crear una primera versión sencilla de la idea. Este prototipo se quedó en prácticamente una simple estructura, pero pienso que puede servir para ilustrar la intención que tenía.
Como al final no me decidí a dar el gran paso y desarrollar el proyecto, y es una pena que el esfuerzo que dediqué a hacer el planteamiento se quede en un documento de mi portátil, he decidido compartir el plan de empresa, adjunto en este post. També he puesto online el prototipo web que comencé. Aviso que está tal como lo dejé, no funciona casi nada.

- Leer más
- 1567 lecturas
-

