Esquema en estrella o Copo de nieve

 Saludos compañeros,

 

Estoy intentando desarrollar un Datawarehouse aplicado a la educación, partiendo de supuestos que me he planteado como el sigiuiente indicador:

 

"conocer el rendimiento de los estudiantes que tienes bajo nivel, conocer cuales son esas materias en las que esta mal y estan generando rendimiento bajo y a que nivel corresponden esas materias, a que escuela pertenece y en que unidad de negocio se encuentra en un tiempo determinado" 

 

INDICADOR:

 

- rendimiento --> promedio de notas

PERSPECTIVAS:

-Unidad de negocio --> Matriz, sucursal 1, sucursal 2 ...etc

-Escuela -->  solo lo estoy aplicando a la escuela de sistemas

-Nivel --> conocer los niveles que puede tener una escuela

-Materias --> conocer las materias que tiene ese nivel

Estudiantes --> conocer los estudiantes

 

es decir lo que yo quiero obtener es un modelo que me permita partir de un nivel "macro" y navegar entre los datos hasta llegar a los estudiantes que estan generando un rendimiento bajo a la escuela, para entender un poco mejor quisiera solventar estos criterios de analisis:

 

1) realizar un primer analisis, conocer el rendimiento de los estudiantes en un nivel de escuela

2)si existen una escuela con un rendimiento bajo, poder navegar entre los datos y conocer que "nivel" que esta afectando el rendimiento al nivel superior "escuela"

3)conociendo el nivel, quisiera seguir profundizando y conocer las materias que tienen rendimiento bajo

4)en este punto quisiera conocer los estudiantes que estan generando el problema, este seria el nivel de granulidad mas bajo

 

Entonces mi duda es si hacerlo en un esquema estrella o en un esquema copo de nieve, quisiera me orienten para saber que modelo se ajusta a mis necesidades ya que aun no tengo la experiencia como para diferenciarlo, estare muy agradecido por su ayuda

 

Antes de nada, si no lo has hecho ya, te recomiendo la lectura del artículo Modelos de construcción de Data Warehouses, de Jose María Arce, que se centra justamente en las implicaciones de la elección de un modelo en estrella o uno de copo de nieve.

Y ahora, para liarte un poco más, yo diría que aunque el autor se decanta más por la utilización de modelos de tipo copo de nieve, en tu caso sería más apropiado un modelo en estrella.

En entornos empresariales un modelo de copo de nieve puede ser más apropiado especialmente cuando el Data Warehouse es grande y consta de varias tablas de hechos, y muchas dimensiones compartidas, que pueden 'enlazar' con cada tabla de hechos a un nivel de agregación diferente.

En tu caso, por lo que comentas, el ámbito es el académico, el modelo va a ser bastante sencillo, y seguramente un diseño en estrella va a ser más fácil de implementar, y la estructura más fácil de entender.

De todas maneras, otro factor importante a la hora de hacer esta elección es el software de BI que vas a utilizar para explotar o analizar la información, ya que hay herramientas que aprovechan mejor las capacidades de modelos de copo de nieve, y otras que se han desarrollado para funcionar sobre modelos en estrella.

otra duda que tengo es como construyo la tabla de dimensiones, yo lo estaba pensando hacer en estrella, ese era mi mejor opcio, queria un poco de orientacion que la agradezco, pero ahora tengo la duda con el criterio de estudiantes, ya que ese es mi ultimo nivel de detalle, y quisiera saber si la hago como una dimension propia o la hago como jerarquia, ya que mi intencion es tambien preparar el modelo para utilizar tecnicas de mineria de datos

 

entonces definiria la dimension UNIDAD_NEGOCIO que seria mi nivel macro

 

UNIDAD NEGOCIO

       ESCUELA

               NIVELES

                       MATERIAS

                                 ESTUDIANTES   

 

En respuesta a por b3nito

Lo primero que tienes que plantearte es tu foco de análisis, lo que quieres analizar, que por lo que explicas es el rendimiento de los estudiantes. Tu modelo en estrella tendría entonces como parte central una tabla de hechos de estudiantes con los indicadores de rendimiento de que dispongas, y diversas dimensiones que enlazan esta tabla de hechos, y que te van a permitir analizar el rendimiento de los estudiantes bajo diferentes puntos de vista.

Creo que has hecho incluído demasiadas cosas en la dimensión UNIDAD_NEGOCIO. Yo, por lo que comentas, plantearía algo así

 

Tabla de hechos: ESTUDIANTES

Dimensión 1: UNIDAD_NEGOCIO: Unidad

                                                        Escuela

Dimensión 2: MATERIAS

Dimensión 3: NIVELES (esta no la tengo muy clara, son cursos?)

Dimensión 4: TIEMPO:  Año

                                       Semestre

 

Con esto ya tienes una estrella con 4 dimensiones, espero que te sirva..

                                           

 

Muchas Gracias mi estimado Carlos, siempre cuento con tu valiosa ayuda, y con respecto al modelo que me planteaste, en donde yo podria conocer los estudiantes que me estan afectando el rendimiento.   

 

mi foco de analisis es que quiero llegar a un nivel de detalle de los estudiantes (nombres y apellidos) que estan generando un bajo rendimiento, partiendo de un nivel de detalle alto como lo es unidad de negocio, eso podria comentarte mi estimado carlos, en un primer analisis pero tambien quiero preparar el modelo para mineria de datos y conocer las caracteristicas de estos estudiantes con bajo rendimiento, es decir su situacion economica, social, si tiene cargas familiares, etc ahora mi otra duda es en que dimension coloco las caracteristicas del estudiante?   

 

Con respecto a la dimension "Niveles" es un criterio que pertenece a mi pais ecuador, asi le llamamos a un semestre, es decir si un estudiante se encuentra cursando el sexto semestre de la carrera, lo conocemos como sexto nivel, espero te alla aclarado el concepto y nuevamente te agradezco tu ayuda 

 

En respuesta a por b3nito

Entonces, si tu foco es el rendimiento, podrías crear una tabla de hechos de Rendimiento académico, y las dimensiones te servirían para analizar todos los factores que influyen en el rendimiento. Con esta herramienta de análisis ya podrías 'ver por donde van los tiros' y comenzar a plantearte modelos de datamining basados en lo que vayas averiguando o intuyendo con la analítica.

Mi nueva propuesta sería entonces:

Tabla de hechos: Rendimiento académico

Dimensión   1: Estudiantes, con toda su información asociada

Dimensión 2: Unidad de negocio

Dimensión 3: Materias

Dimensión 4: Niveles

Dimensión  5: Temporal

 

Un saludo,

 Mi estimado alfonso, agradezco tu interes y puedo contarte que gracias a Dataprix y a esa investigación, surgio mi motivacion de hacer esa demostracion en mi pais Ecuador, ya que aqui no es muy común esta tecnologia en las empresas y lo quize hacer en mi Universidad, yo de igual forma si todo sale bien pues estare compartiendo mis resultados

 

Muchos saludos.