Completo mapa 'interactivo' de introducción a la Minería de Datos

Mapa Interactivo de proceso de Minería de DatosEn la web de Universidad de Toronto se puede encontrar este práctico Mapa de Introducción al Data Mining, en el se muestran organizadas las diferentes fases habituales de un proceso de Minería de Datos, y las técnicas o algoritmos que se pueden utilizar en cada fase.

Cada fase, agrupación o algoritmo está representado en un botón en el que se puede hacer click y llegar a una página de detalle del mismo...

Detección de datos con ruido en bases de datos utilizando herramientas OLAP

Resumen

Para realizar una correcta auditoría de sistemas es necesario que los datos incluidos en las bases de datos posean calidad, por tal motivo es necesario analizar si es posible la detección de ruidos en una base de datos, utilizando una herramienta de visualización OLAP.

Para detectar ruido a través de técnicas de visualización OLAP1 utilizamos una metodología Top-Down, intentando ir desde lo general a lo particular. De esta forma, en cada etapa vamos refinando cada vez mas la granularidad del ruido detectado, hasta lograr aislar cada tupla con ruido.

Resumen de mi Tesis - Minería de Datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación

En la presente investigación se realizó una Minería de Datos sobre el Cubo 04 Desgranamiento, exportado del Sistema de Gestión Académica SIU-Guaraní, provistos por el Ministerio de Educación, Ciencia y Tecnología de la Nación.

El objetivo principal fue maximizar la calidad que los modelos tienen para clasificar y agrupar a los estudiantes, de acuerdo a sus características académicas, factores sociales y demográficos, que han desertado de la Carrera Analista en Sistemas de Computación de la Facultad de Ciencias Exactas, Químicas y Naturales de la Universidad Nacional de Misiones.

Luego, estos modelos fueron utilizados para realizar pronósticos sobre el resto de los alumnos.

El proyecto se desarrolló bajo la metodología de libre difusión Crisp-DM y con la herramienta comercial IBM DB2 Warehouse (versión 9.5).

La calidad de los modelos obtenidos a través de la clasificación con árboles de decisión superó a la técnica de agrupamiento a través de la generación de clústeres y ambas han superado ampliamente lo planteado.

 

Terminado el manual de Minería de Datos aplicada a la Encuesta Permanente de Hogares

Acabamos terminar de editar la última incorporación a los manuales online de Dataprix. Se trata del interesante trabajo Minería de datos aplicada a la encuesta permanente de hogares que Alfonso Cutro nos ha enviado para así poder compartirlo con todos vosotros.

También podéis descargar la versión original en formato pdf desde esta entrada de blog donde él mismo presenta el trabajo.

Podéis consultar bajo la figura el índice completo a todo el contenido del manual

 

Teoria de Data Mining.

Teoria de Data Mining.En una entrada anterior del Blog (2.4. DataMining o Mineria de Datos.) intentamos hacer una aproximación inicial a la teoria del Data Mining. Los procesos de data mining tratan de extraer información oculta en los datos mediante el uso de diferentes técnicas (la mayoría relacionadas con la estadística y los modelos matemáticos, en combinación con aplicaciones informáticas).
Dada la complejidad de estas técnicas, y no siendo el cometido de esta blog entrar en profundidad en esta materia (por cuestiones de tiempo y de conocimientos), nos limitaremos a ver un par de metodologias de datamining, enumerar las técnicas mas habituales y a recordar los conceptos de tres de estas técnicas mediante ejemplos prácticos. Esos mismos ejemplos nos permitirán la posterior utilización de las herramientas de DataMining que proporciona Microstrategy 9 (también incluidas en la Microstrategy Reporting Suite) y explicar que visión tiene el producto de las técnicas de Data Mining.
Antes de comenzar, os recomiendo ver la presentación Data Mining.Extracción de Conocimiento en Grandes Bases de Datos, realizada por José M. Gutiérrez, del Dpto. de Matemática Aplicada de la Universidad de Cantabria, Santander...

 

DataMining en Microstrategy 9 (I).

DataMining en Microstrategy 9 (I).La orientación de Microstrategy 9 con el Data Mining es integrarlo totalmente en su plataforma de Business Intelligence y que no sea un producto aparte como en muchos otros fabricantes (lo que nos obliga a realizar los análisis en un sistema paralelo). Esta integración se realiza a traves de las métricas predictivas, que estaran disponibles en el sistema como un elemento mas del sistema de BI.
Ademas, soporta el estandar de la industria PMML (Predictive Model Markup Language), lo que nos permite importar modelos de data mining desde otras plataformas y crear de forma automatica en el repositorio de metadatos las metricas predictivas. Recordemos que PMML es un estandar de la industria en XML desarrollado por el Data Mining Group(DMG) para describir los modelos predictivos. En su desarrollo han participado los principales fabricantes de software de datamining, incluyendo Microstrategy. Este estandar soporta un gran numero de algoritmos de data mining, como son las Redes Neuronales, Clustering, Regresion, Arboles de Decision y Asociacion. PMML se puede generar en las principales aplicaciones de DM como son SAS®, SPSS®, Microsoft®, Oracle®, IBM®, KXEN™, ANGOSS y otros. Microstrategy es la primera plataforma BI que soporta el estandar, y su plataforma incluye, de forma integrada con el resto de elementos, la creación de modelos y la distribución de los resultados a los usuarios a traves del visor de modelos previsibles, que presenta unas características e información gráfica diferente según el tipo de análisis que estemos realizando. Los resultados de los estudios se pueden incluir como un elemento mas en los Dashboards de analisis...

 

DataMining en Microstrategy 9 (II).

DataMining en Microstrategy 9 (II).El analisis de clúster ofrece un método para agrupar valores de datos basado en similitudes dentro de estos. Esta técnica segmenta distintos elementos en grupos según el grado de asociación entre los elementos. El grado de asociación entre dos objetos es máximo si pertenecen al mismo grupo y mínimo si no pertenecen al mismo grupo. Se forma un número determinado o especificado de grupos, o clusteres, lo que permite clasificar matematicamente cada valor de los datos en el grupo adecuado.
El analisis de cluster se considera una técnica de aprendizaje sin guía debido a que no hay variable de destino o dependiente. Generalmente, hay características subyacentes (que habrá que descubrir) que determinan el motivo por el que determinadas cosas aparecen relacionadas y otras no lo estan. El análisis de cluster de elementos relacionados proporciona información significativa sobre cómo se relacionan entre sí los diversos elementos de un conjunto de datos...

Resumen de Minería de Datos Aplicada a la Búsqueda de Perfiles de Alumnos

Aplicación de técnicas de minería de datos basadas en clustering para la búsqueda de perfiles de los alumnos según su rendimiento académico, situación demográfica y socio económica. 

El objetivo principal de este trabajo es encontrar perfiles de alumnos por medio de la aplicación de técnicas de minería de datos a un data warehouse con datos académicos, socio económico y demográfico correspondientes a alumnos de Sistemas Operativos de la Licenciatura en Sistemas de Información de la FACENA de la UNNE.

Tareas en datamining

 Conviene categorizar las distintas tareas que se pueden realizar en datamining dependiendo de los objetivos que se persigan:

 

-          Análisis exploratorio de datos (EDA). Son técnicas para explorar descriptivamente los datos. Generalmente son técnicas interactivas y visuales o de componentes principales.