Las salidas de CRISP-DM

Las salidas de CRISP-DM Dataprix 15 Septiembre, 2007 - 16:20

IV-Las salidas del CRISP-DM

Esta sección contiene las breves descripciones de los objetivos y el contenido de los informes más importantes. Aquí, enfocamos en los informes que son significativos para comunicar los resultados de una fase a la gente no involucrada en esta fase (y posiblemente no involucrada en este proyecto). Estos no son necesariamente idénticos a las salidas como lo descrito en el modelo de referencia y la guía de usuario. El objetivo de estas salidas es mas para documentar resultados mientras se está realizando el proyecto.

Comprensión del negocio

Comprensión del negocio Dataprix 15 Septiembre, 2007 - 16:22
  1. Comprensión del negocio

Los resultados de la fase de Comprensión de Negocio pueden ser resumidos en un informe. Sugerimos las secciones siguientes:

Contexto

La sección Contexto proporciona una descripción básica del contexto de proyecto. Listar cuales áreas están trabajando en el proyecto, que problemas han sido identificados, y por qué la minería de datos parece proporcionar una solución.

Objetivos de negocio y criterios de éxito

La sección de Objetivos de negocio describe los objetivos del proyecto en términos de negocio. Para cada objetivo, Los Criterios de Éxito de Negocio, esto es, describir las medidas para determinar si realmente el proyecto ha logrado en sus objetivos.

Esta sección también debería listar los objetivos que fueron considerados, pero rechazados. El razonamiento de la selección de objetivos debería ser dado.

Inventario de recursos

La sección de Inventario de Recursos apunta para identificar el personal, fuentes de datos, instalaciones técnicas, y otros recursos que pueden ser útiles en la realización del proyecto.

Requerimientos, presunciones, y restricciones

Esta sección lista los requerimientos generales para la ejecución del proyecto: tipo de resultados de proyecto, presunciones hechas sobre la naturaleza del problema y de los datos que están siendo usados, y restricciones impuestas al proyecto.

Riesgos y contingencias

Esta sección identifica los problemas que pueden ocurrir en el proyecto, describe las consecuencias, y declaran que acciones pueden ser tomadas para reducir al mínimo tales riesgos.

Terminología

La sección de Terminología permite a la gente desconocida con los problemas que están siendo dirigidos por el proyecto para hacerse más familiar con ellos.

Costos y beneficios

Esta sección describe los costos del proyecto y predice los beneficios del negocio si el proyecto es exitoso (por ejemplo, la vuelta en la Inversión). Otros beneficios menos tangibles (por ejemplo, la satisfacción del cliente) también deberían ser destacadas.

Objetivos de minería de datos y criterios de éxito

La sección de Objetivos de Minería de datos declara los resultados del proyecto que permiten el logro de los objetivos de negocio. También como el listado de los accesos probables de minería de datos, los criterios de éxito para los resultados en términos de minería de datos, también deberían ser puestos en una lista.

Plan de proyecto

Esta sección pone en una lista las etapas para ser ejecutadas en el proyecto, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, esto debería hacer explícitamente las iteraciones en gran escala en el proceso por ejemplo de minería de datos - por ejemplo, las repeticiones del modelado y fases de evaluación.

Evaluación inicial de herramientas y técnicas

Esta sección da una vista inicial de que herramientas y técnicas probablemente van a ser usadas y como. Esto describe los requerimientos para las herramientas y técnicas, ponen en una lista herramientas disponibles y técnicas, y los compara a los requerimientos.

Comprensión de datos

Comprensión de datos Dataprix 15 Septiembre, 2007 - 16:26
  1. Comprensión de Datos

Los resultados de la fase Comprensión de Datos por lo general son documentados en varios informes. Idealmente, estos informes serían los escritos mientras se estaban realizando las respectivas tareas. Los informes describen el conjunto de datos que es explorado durante la comprensión de datos.

Para el informe definitivo, un sumario de las partes más relevantes es suficiente.

Informe de colección de datos iniciales

Este informe describe como las diferentes fuentes de datos identificadas en el inventario fueron capturadas y extraídos.

Temas para ser cubiertos:

  • Contexto de datos

  • Lista de fuentes de datos con amplia área de cobertura de datos requeridos por cada uno

  • Para cada fuente de datos, método de adquisición o extracción

  • Problemas encontrados en adquisición de datos o extracción

Informe de descripción de datos

Cada conjunto de datos adquirido es descrito en este informe.

Temas para ser cubiertos:

  • Cada fuente de datos descrita detalladamente

  • Lista de tablas (puede ser sólo uno) u otros objetos de base de datos

  • Descripción de cada campo, incluyendo unidades, códigos usados, etc.

Informe de exploración de datos

  • Este informe describe la exploración de datos y sus resultados.

    • Temas para ser cubiertos:

    • Contexto, incluyendo los amplios objetivos de exploración de datos. Para cada área de exploración emprendida:

    • Las regularidades esperadas o patrones

    • Método de detección

    • Regularidades o patrones encontrados, esperados e inesperados

    • Cualquier otra sorpresa

    • Conclusiones para transformación de datos, limpieza de datos, y cualquier otro proceso previo

    • Conclusiones relacionadas con datos que extraen objetivos u objetivos de negocio

    • Sumario de conclusiones

Informe de calidad de datos

Este informe describe lo completo y la exactitud de los datos.

Temas para ser cubiertos:

  • Contexto, incluyendo amplias expectativas sobre calidad de datos. Para cada conjunto de datos:

    • Acercar tomas para evaluar la calidad de datos

    • Los resultados de evaluación de calidad de datos

    • Sumario de conclusiones de calidad de datos

Preparación de los datos

Preparación de los datos Dataprix 15 Septiembre, 2007 - 17:35
  1. Preparación de Datos

Los informes en la fase de preparación de datos se enfocan en los pasos de pre-proceso que producen los datos para ser minados.

Informe de descripción de conjunto de datos

Este informe proporciona una descripción del conjunto de datos (después del pre-proceso) y el proceso por el que fue producido.

Temas para ser cubiertos:

  • Contexto, incluyendo objetivos amplios y plan para el pre-proceso

  • Razonamiento para inclusión/exclusión de conjunto de datos. Para cada conjunto de datos incluir:

    • La descripción del pre-proceso, incluyendo las acciones que fueron necesarias para dirigir cualquier cuestión de calidad de datos

    • Descripción detallada del conjunto de datos resultante, tabla por tabla y campo por campo

    • Razonamiento para inclusión/exclusión de atributos

    • Descubrimientos de hechos durante el pre-proceso, y cualquier implicación para futuros trabajos

    • Sumario y conclusiones

 

Modelado

Modelado Dataprix 15 Septiembre, 2007 - 17:37
  1. Modelado

Las salidas producidas durante la fase Modelado pueden ser combinadas en un informe. Sugerimos las secciones siguientes:

Modelado de presunciones

Esta sección define cualquier presunción explícita hecha sobre los datos y cualquier presunción que está implícita en la técnica de modelado a ser usado.

Diseño de prueba

Esta sección describe como los modelos son construidos, probados, y evaluados.

Temas para ser cubiertos:

  • Contexto de fondo la ocupación del modelo y su relación a los objetivos de minería de datos. Para cada tarea de modelado:

    • Ampliación de la descripción del tipo de modelo y los datos que se entrenan para ser usado

    • La explicación de como el modelo será probado o evaluado

    • Descripción de cualquier dato requerido para las pruebas

    • Plan para producción de los datos de prueba si hay

    • Descripción de cualquier examen planeado de modelos por expertos en dominio o de datos

    • Sumario de plan de prueba

Descripción del modelo

Este informe describe los modelos entregados y las descripciones del proceso por el que ellos fueron producidos.

Temas para ser cubiertos:

  • Descripción de modelos producidos. Para cada modelo:

    • Tipo de modelo y la relación a los objetivos de minería de datos.

    • Los parámetros de ajustes usados producir el modelo

    • Descripción detallada del modelo y cualquier rasgo especial. Por ejemplo:

  • Para modelos basados por regla, listar las reglas producidas más cualquier evaluación de precisión por-regla o el modelo completo y el alcance

  • Para modelos no transparentes, listar cualquier información técnica sobre el modelo (como la topología de red de los nervios) y algunas descripciones de comportamiento producidas por el proceso de modelado (como la precisión o la sensibilidad)

  • Descripción del comportamiento del modelo e interpretación

    • Conclusiones en cuanto a los patrones en los datos (si hay). A veces el modelo revelará hechos importantes sobre los datos sin un proceso de evaluación separado (por ejemplo, que la salida o la conclusión están duplicadas en una de las entradas).

  • Sumario de conclusiones

Evaluación del modelo

Esta sección describe los resultados de prueba de los modelos según el diseño de prueba.

Temas para ser cubiertos:

  • Descripción de los procesos de evaluación y los resultados, incluyendo cualquier desviación del plan de prueba. Para cada modelo:

    • Evaluación detallada, incluyendo medidas como precisión e interpretación del comportamiento

    • Cualquier comentario sobre los modelos por expertos en el dominio o de datos

    • Evaluación resumida de modelos

    • Ideas en por qué una cierta técnica de modelado y ciertos ajustes de parámetro conducen a resultados buenos/malos

    • Evaluación sumaria del conjunto de modelos completos

 

Evaluación

Evaluación Dataprix 15 Septiembre, 2007 - 17:41
  1. Evaluación

Evaluación de los resultados de minería de datos en lo que respecta a criterios de éxito de negocio

Este informe compara los objetivos de minería de datos con los objetivos de negocio y los criterios de éxito de negocio.

Temas para ser cubiertos:

  • Revisión de objetivos de negocio y criterios de éxito de negocio (que podría haberse cambiado durante y/o como consecuencia de la minería de datos). Para cada criterio de éxito de negocio:

    • Comparación detallada entre criterio de éxito y resultados de minería de datos

    • Conclusiones sobre aceptabilidad (achievability) de criterios de éxitos y conveniencia del proceso de minería de datos

  • Revisión del éxito de proyecto:

    • ¿El proyecto ha alcanzado los objetivos originales de negocio?

    • ¿Objetivos allí nuevos de negocio deben ser dirigidos después en el proyecto o en nuevos proyectos?

    • Conclusiones para futuros proyectos de minería de datos

Revisión de proceso

Esta sección evalúa la eficacia del proyecto e identifica cualquier factor que podrían haber sido pasado por alto que debería ser tenido en cuenta si el proyecto es repetido.

Lista de posibles acciones

Esta sección hace recomendaciones en cuanto a los siguientes pasos en el proyecto.

Desarrollo

Desarrollo Dataprix 15 Septiembre, 2007 - 17:50
  1. Desarrollo

Plan de desarrollo

Este informe especifica el desarrollo de los resultados de minería de datos.

Temas para ser cubiertos:

  • Resumen de los resultados desarrollados (derivado de los informes de Próximos Pasos)

  • Descripción de plan de desarrollo

Supervisión y plan de mantenimiento

La supervisión y el plan de mantenimiento especifican como los resultados desarrollados deben ser mantenidos. Temas para ser cubiertos:

  • Descripción de los resultados de desarrollo y la indicación de que los resultados pueden requerir la actualización (y el por qué). Para cada resultado desarrollado:

    • Descripción de como la actualización será provocada (por una normal actualización, por un acontecimiento de activación, por la ejecución de una supervisión)

    • Descripción de como la actualización será realizada

  • Resumen de los procesos de actualización de los resultados

Informe definitivo

El informe definitivo es usado para resumir el proyecto y sus resultados.

Contenido:

  • Resumen de la comprensión del negocio: contexto, objetivos, y criterios de éxito

  • Sumario de proceso de minería de datos

  • Resumen de los resultados de minería de datos

  • Sumario de la evaluación de resultados

  • Resumen del desarrollo y de los planes de mantenimiento

  • Análisis Costo/Beneficio

  • Conclusiones para el negocio

  • Conclusiones para futura minería de datos

 

Resumen de dependencias

Resumen de dependencias Dataprix 15 Septiembre, 2007 - 17:52
  1. Resumen de dependencias

La siguiente tabla resume las entradas principales para los operadores. Esto no significa que solo las listas de entradas puestas deberían ser consideradas -por ejemplo, los objetivos de negocio deberían ser distribuidos a todo los operadores. Sin embargo, el operador debería dirigir cuestiones específicas elevadas por sus entradas.