Prologo CRISP-DM

Metodología CRISP-DM

Este documento describe el proceso de modelado CRISP-DM y contiene la información sobre la metodología de CRISP-DM, el modelo de referencia de CRISP-DM, la guía de usuario de CRISP-DM , Y el reporte CRISP-DM, así como un apéndice con información adicional relacionada. Este documento e información aquí son propiedad exclusiva de los compañeros del consorcio CRISP-DM: NCR Ingeniería de sistemas Copenhague (EE. UU y Dinamarca), DaimlerChrysler AG (Alemania), SPSS Inc. (EE. UU), Y OHRA Verzekeringen en Deposita Groep B.V. (Países Bajos).

Copyright © 1999, 2000

Todas las marcas registradas y señales de servicio mencionadas en este documento son las señales de sus dueños respectivos y son como tal reconocido por los miembros del consorcio de CRISP-DM.

Advertencia

El CRISP-DM fue concebido a finales de 1996 por tres "veteranos" del joven e inmaduro mercado de minería de datos. DaimlerChrysler (entonces Daimler-Benz) estaba ya delante de la mayoría de las organizaciones industriales y comerciales en la aplicación de la minería de datos en sus operaciones de negocios.

SPSS (entonces ISL) había estado proporcionando servicios basados en Minería de datos desde 1990 y había lanzado la primer herramienta de trabajo comercial de Minería de Datos Clementine en 1994.

NCR, como parte de su objetivo para entregar valor adicional a su Teradata ® Almacén de datos (data warehouse), habían establecido los equipos consultores de minería de datos y especialistas de tecnología para atender las exigencias de sus clientes.

En aquel tiempo, el temprano interés del mercado en la minería de datos mostraba signos de explosión en la comprensión popular. Esto era tan apasionante como aterrador. Todos nosotros habíamos desarrollado nuestro ingreso (aproximación) a la minería de datos que pasamos de largo. ¿Nosotros hacíamos lo correcto? ¿Cada nueva adopción de minería de datos iba a tener que aprenderse, como nosotros habíamos iniciado, por prueba y error? ¿Y desde la perspectiva de un proveedor, como podíamos manifestarnos a clientes anticipados que la minería de datos era suficientemente madura para ser adoptado como una parte clave de su proceso de negocio?

Un modelo de proceso estándar, pensamos, sin propietarios y libremente disponible, podría dirigir estas cuestiones para nosotros y para todos los profesionales.

Un año más tarde, nosotros habíamos formado un consorcio, inventado una sigla (Proceso Estándar Industrial Híbrido para la Minería de Datos), obtenido financieramente de la Comisión europea, e iniciado para establecer nuestras ideas iniciales. Como el CRISP-DM fue planeado para ser herramienta industrial, y de aplicación neutral, nosotros sabíamos que tuvimos que ser introducidos a una amplia gama como de profesiones y otros (tal como vendedores de almacenes de datos y consultas de administración) con un interés personal en minería de datos. Hicimos esto por crear el Grupo interesado especialmente en CRISP-DM (“el GIS”, como se hizo conocido). Lanzamos el GIS por difusión de una invitación a partes interesadas para unirnos en Amsterdam para todo un día de taller: Nosotros compartiríamos nuestras ideas, los invitaríamos a presentar las suyas, y abrimos la discusión de como tomar el CRISP-DM en adelante.

En los días del taller, había un sentimiento de agitación entre los miembros del consorcio. ¿Alguien estaría bastante interesado en mostrarse? ¿O, si ellos lo hicieran, nos dirían que ellos realmente no vieron una necesidad urgente para un proceso estándar? ¿O que nuestras ideas estaban ahora fuera del paso que cualquier otra idea de estandarización era una fantasía impracticable?

  • El taller sobrepasó todas nuestras expectativas. Tres cosas se destacaron:

  • El doble de personas apareció de lo que al principio habíamos esperado.

  • Había un acuerdo general aplastante que la industria necesitaba de un proceso estándar y lo necesitaba ahora.

  • Como los asistentes presentaron sus opiniones sobre la minería de datos desde su experiencia de proyecto, se hizo claro que aunque hubiera diferencias superficiales - principalmente en la demarcación de fases y en la terminología- hubo enormes puntos en común en como ellos vieron el proceso de minería de datos.

Hacia el final del taller, sentimos confidencias que nosotros podríamos entregar, con la entrada del GIs'S y las críticas, un modelo de proceso estándar para atender la comunidad de minería de datos.

Durante los dos próximos años y medio, trabajamos para desarrollar y refinar el CRISP-DM. Controlamos pruebas en vivo, en proyectos de gran escala de minería de datos, en Mercedes Benz y en nuestro compañero del sector de seguros, OHRA. Trabajamos sobre la integración del CRISP-DM con herramientas comerciales de minería de datos. El GIS demostró ser valioso, creciendo a más de 200 miembros y sosteniendo talleres en Londres, Nueva York, y Bruselas.

Hacia el final del proyecto de la parte financiada por CE -mid-1999- habíamos producido lo que consideramos un esbozo de buena calidad del modelo de proceso. Aquellos familiarizados con aquel esbozo encontrarán que un año más tarde, aunque ahora mucho más completo y mejor presentado, el CRISP-DM 1.0 no es en ningún caso radicalmente diferente. Nosotros éramos sumamente conscientes que, durante el proyecto, el modelo de proceso está todavía con muchísimo trabajo-en-progreso; el CRISP-DM sólo había sido validado sobre un juego estrecho de proyectos. A lo largo del año pasado, DaimlerChrysler tenía la oportunidad de aplicar el CRISP-DM a una más amplia gama de usos. Los grupos de Servicios Profesionales del SPSS' Y NCR'S han adoptado el CRISP-DM y usado satisfactoriamente sobre numerosos contratos de cliente cubriendo muchas industrias y problemas de negocio.

En todo este tiempo, hemos visto que los proveedores de servicio de fuera del consorcio adoptan el CRISP-DM, repetidas referencias por los analistas como el estándar real para la industria, y una conciencia creciente de su importancia entre clientes (CRISP-DM esta ahora con frecuencia referido en invitaciones al concurso y en documentos RFP). Creemos que nuestra iniciativa ha sido a fondo reivindicado, y mientras futuras mejoras y extensiones son muy deseables como inevitables, consideramos la versión de CRISP-DM 1.0 suficientemente validado para ser publicado y distribuido.

El CRISP-DM no ha sido construido a una manera teórica, académica que trabaja de principios técnicos, ni hizo comités de la elite de gurúes creando detrás de puertas cerradas. Ambos de estos accesos a metodologías que se desarrollan han sido intentados en el pasado, pero raras veces conducían a lo práctico, lo acertado, y extensamente ha adoptado normas. El CRISP-DM tiene éxito porque esta profundamente basado en la experiencia práctica, la experiencia del mundo real de como la gente conduce proyectos de minería de datos. Y en este sentido, somos abrumadoramente el deudor a muchos médicos quien contribuyeron con sus esfuerzos y sus ideas en todas partes del proyecto.

El consorcio de CRISP-DM

Agosto de 2000