Introduccion

En el contexto de la SIC (Joyanes Aguilar, 1997), (Bolaños Calvo, 2001), (Taquini, 2001), (Peiró, 2001) y a los efectos de la determinación de los perfiles característicos de los alumnos de SO de la FACENA de la UNNE, se ha construido un DW con información personal, académica, demográfica y socio económica de los alumnos y de su núcleo familiar, el cual se ha comenzado a explorar con técnicas de DM, presentándose en este trabajo algunos de los resultados obtenidos (aún preliminares y parciales).

Un DW es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Es también un conjunto de datos integrados orientados a una materia, que varían con el tiempo, y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración (Inmon, 1992), (Inmon, 1996), (Simon, 1997), (Trujillo, Palomar & Gómez, 2000).

La DM es la etapa de descubrimiento en el proceso de KDD (Knowledge Discovery from Databases), es el paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados (Fayyad, Grinstein & Wierse, 2001), (Fayyad, Piatetskiy-Shapiro, Smith, & Ramasasmy, 1996), (Han & Kamber, 2001), (Hand, Mannila & Smyth, 2000).

Es también un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a los DW ya que los mismos proporcionan la información histórica con la cual los algoritmos de minería obtienen la información necesaria para la toma de decisiones (Gutiérrez, 2001), (IBM Software Group, 2003).

La DM es un conjunto de técnica de análisis de datos que permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y extraer patrones y tendencias para predecir comportamientos futuros (Simon, 1997), (Berson & Smith, 1997), (Frawley, Piatetsky-Shapiro & Matheus, 1992), (White, 2001).

En la figura 1 se muestra la arquitectura de un DW.

Arquitectura de un Data Warehouse.

El presente estudio se realizó sobre datos obtenidos mediante encuestas realizadas al alumnado de SO, considerando además los resultados de las distintas instancias de evaluación previstas durante el cursadode dicha asignatura. Se utilizó un entorno integrado de gestión de bases de datos y data warehouse (DB2 versión 9.5), obtenido de la empresa IBM mediante los Acuerdos firmados entre dicha empresa y la UNNE; dicho entorno permite la extracción de conocimiento en bases de datos y DW mediante técnicas de DM como ser clustering (o agrupamiento de datos) que consiste en la partición de un conjunto de individuos en subconjuntos lo más homogéneos posible, el objetivo es maximizar la similitud de los individuos del cluster y maximizar la diferencia entre clusters. El cluster demográfico es un algoritmo desarrollado por IBM e implementado en el IM, componente del DWE, entorno antes mencionado, que resuelve automáticamente los problemas de definición de métricas de distancia / similitud, proporcionando criterios para definir una segmentación óptima (Grabmeier, & Rudolph, 1998), (Baragoin, Chan, Gottschalk, Meyer, Pereira & Verhees, 2002), (Ballard, Rollins, Ramos, Perkins, Hale, Dorneich, Cas Milner & Chodagam, 2007), Ballard, Beaton, Chiou, Chodagam, Lowry, Perkins, Phillips & Rollins, 2006).

Los pasos realizados durante el presente trabajo han sido los siguientes:

a) recolección de los datos;

b) tratamiento y depuración de los datos;

c) preparación de la base de datos y del DW correspondiente sobre
la plataforma de trabajo seleccionada;

d) selección de la técnica de minería de datos para la realización del estudio (predominantemente clustering);

e) generación de diferentes gráficos para el estudio de los resultados;

f) estudio de los resultados obtenidos; 

g) obtención de las conclusiones.

En esta etapa se trabajó con una porción (Data Mart: DM) del DW, cuya estructura se muestra en la figura 2.
 

Estructura del DM utilizado, parte del DW.