Introducción a CRISP-DM

Introducción a CRISP-DM Dataprix 15 Septiembre, 2007 - 11:53

I-Introducción

La metodología CRISP-DM

La metodología CRISP-DM Dataprix 15 Septiembre, 2007 - 12:00
  1. La metodología CRISP-DM

    1. Interrupción jerárquica

La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico, consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos. (Ver la figura 1.)

En el nivel superior, el proceso de minería de datos es organizado en un número de fases; cada fase consiste de varias tareas genéricas de segundo nivel. Este segundo nivel lo llaman genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos. Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minería de datos y todas las aplicaciones de minería de datos posibles. Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo.

El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. Por ejemplo, en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. El tercer nivel describe como esta tarea se diferencia en situaciones diferentes, como la limpieza de valores numéricos contra la limpieza de valores categóricos, o si el tipo de problema es agrupamiento o el modelado predictivo.

La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos.

En la práctica, muchas de las tareas pueden ser realizadas en una orden diferente, y esto a menudo será necesario volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Nuestro modelo de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo.

El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minería de datos real contratada.

Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos, pero representa lo que en realidad pasó en un contrato particular más bien que lo que pasa en general.

Figura 1: Cuatro niveles de interrupción de la metodología CRISP-DM

    1. Modelo de referencia y guía de usuario

Horizontalmente, la metodología de CRISP-DM se distingue entre el modelo de referencia y la guía de usuario. El modelo de referencia presenta una descripción rápida de fases, las tareas, y sus salidas, y describen que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minería de datos

Este documento cubre tanto el modelo de referencia como la guía de usuario en el nivel genérico.

Pasaje de modelos genéricos a modelos especializados

Pasaje de modelos genéricos a modelos especializados Dataprix 15 Septiembre, 2007 - 12:03
  1. Pasaje de modelos genéricos a modelos especializados

    1. Contexto de la minería de datos

El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP-DM. Actualmente, distinguimos entre cuatro dimensiones diferentes de contextos de minería de datos:

  • el dominio de aplicación es el área específica en la que el proyecto de minería de datos toma lugar

  • los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de objetivo(s) con el que el proyecto de minería de datos trata (ver también el Apéndice 2)

  • el aspecto técnico cubre cuestiones específicas en minería de datos que describe diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos

  • la herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos

La Tabla 1 de abajo resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión.

Tabla 1. Dimensión de contextos y ejemplos de minería de datos

Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. Por ejemplo, un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico. Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minería de datos.

    1. Pasaje con contextos

Distinguimos entre dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM.

Pasaje para el presente: Si sólo aplicamos el modelo de proceso genérico para realizar un proyecto de minería simple, e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido, hablamos sobre un pasaje solo para (probablemente) un solo uso.

Pasaje para el futuro: Si sistemáticamente especializamos el modelo de proceso genérico según un contexto predefinido (o analizando sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), hablamos explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM.

Cualquiera de los tipos de trazados es apropiado según sus propios objetivos, depende de su contexto de minería de datos específicos y las necesidades de su organización.

    1. Pasaje

La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje:

  • Analizar su contexto específico

  • Quitar cualquier detalle no aplicable a su contexto

  • Agregar cualquier detalle específico a su contexto

  • Especializar (o instanciar) el contenido genérico según las características concretas de su contexto

  • Renombrar el contenido genérico posible para proporcionar significados más explícitos en su contexto para la aclaración.

 

Descripción de partes

Descripción de partes Dataprix 15 Septiembre, 2007 - 12:08
  1. Descripción de partes

    1. Contenido

El modelo de proceso de CRISP-DM (este documento) es organizado en cinco partes diferentes:

  • Parte I: es esta una introducción a la metodología de CRISP-DM, que proporciona algunas directrices generales para pasar un modelo de proceso genérico a modelos de proceso especializados

  • Parte II: describe el modelo de referencia de CRISP-DM, sus fases, tareas genéricas, y salidas

  • Parte III presenta la guía de usuario de CRISP-DM, que va más allá de la descripción pura de fases, tareas genéricas, y salidas, y contiene el asesoramiento más detallado sobre como realizar proyectos de minería de datos

  • Parte IV: Se centra en los informes para ser producidos durante y después de un proyecto, y sugiere contornos para estos informes. Ello también muestra referencias cruzadas entre salidas y tareas.

  • Parte V es el apéndice, que incluye un glosario de terminología importante y una caracterización de los tipos de problemas de minería de datos

    1. Objetivo

Los usuarios y los lectores de este documento deberían ser conscientes de las instrucciones siguientes:

  • Si usted lee el modelo de proceso de CRISP-DM por primera vez, comience con la Parte I, la introducción, para entender la metodología de CRISP-DM, todos sus conceptos, y como los distintos conceptos se relacionan uno con el otro. En remotas lecturas, usted podría saltar la introducción y sólo verlo si lo necesita para una aclaración.

  • Si usted necesita rápido el acceso a una descripción del modelo de proceso de CRISP-DM, referirse a la Parte II, el modelo de referencia de CRISP-DM, otra forma de un proyecto de minería de datos rápidamente o conseguir una introducción a la guía de usuario de CRISP-DM.

  • Si usted necesita el asesoramiento detallado en la realización de su proyecto de minería de datos, ver Parte IIII, la guía de usuario de CRISP-DM, es lo más parte más importante de este documento. Nota: si usted no ha leído primero la introducción o el modelo de referencia, vuelva y lea estas primeras dos Partes.

  • Si usted está en la etapa de minería de datos cuando usted sobrescribe sus informes, ver Parte IV. Si usted prefiere generar deliberadamente las descripciones durante el proyecto, muévase hacia adelante y hacia atrás entre Partes III y IV como lo desee.

  • Finalmente, el apéndice es útil como información adicional de fondo a la MINERÍA de datos y al CRISP-DM. Use el apéndice para buscar varios términos si usted no es aún un experto en el campo.