Modelado

Modelado Dataprix 15 Septiembre, 2007 - 16:09
  1. Modelado

    1. Seleccionar técnicas de modelado

Tarea Seleccionar técnicas de modelado

Como el primero paso en modelado, seleccionar la técnica de modelado inicial actual. Si múltiples esta para ser aplicados, realizar separadamente esta tarea para cada técnica.

Recuerde que no todos los instrumentos y técnicas son aplicables a toda y cada tarea. Para ciertos problemas, sólo algunas técnicas son apropiadas (Vea el Apéndice 2, donde las técnicas asignan para ciertos tipos de problemas de minería de datos es hablada más detalladamente). “Requerimientos políticos” y otras restricciones adicionales limitan las opciones disponibles para el ingeniero de minería de datos. Puede ser solo una herramienta o técnica están disponibles para solucionar el problema a mano - y que el instrumento no pueda ser absolutamente lo mejor, de un punto de vista técnico.

Figura 10: Universidad (Diversidad) de Técnicas

Salida Técnicas de modelado

Registrar las técnicas de modelado real que se usa.

Actividades

Decidir las técnicas apropiada para el ejercicio, teniendo en cuenta la herramienta seleccionada.

Salida Presunciones de modelado

Muchas técnicas de modelado realizan presunciones específicas sobre los datos.

Actividades

  • Definir cualquier presunciones construidas hechas por la técnica sobre los datos (por ejemplo, la calidad, el formato, la distribución)

  • Comparar estas presunciones con aquellas de el Informe de Descripción de Datos

  • Asegurarse que estas presunciones sostienen y volver a la Fase de Preparación de Datos, si es necesario

    1. Generar el diseño de prueba

Tarea Generar el diseño de prueba

Antes de construir un modelo, es necesario definir un procedimiento para probar la calidad del modelo y la validez. Por ejemplo, en tareas de minería de datos supervisadas como la clasificación, es común usar tasas de error como medidas de calidad para modelos de minería de datos. Por lo tanto, el diseño de prueba especifica que el conjunto de datos debería ser separado en el entrenamiento y en el conjunto de prueba. El modelo esta construido sobre el conjunto de entrenamiento y su calidad estimada sobre el conjunto de prueba.

Salida Diseño de Prueba

Describir el plan deliberado para el entrenamiento, las pruebas, y la evaluación de los modelos. Un componente primario del plan es para decidir como dividir el conjunto de datos disponible sobre datos que se entrenan, datos de prueba, y conjunto de pruebas de validación.

Actividades

  • Comprobar que existe diseños de prueba separadamente para cada objetivo de minería de datos

  • Decidir los pasos necesarios (el número de iteraciones, el número de desviaciones o curvas, etc.)

  • Preparar los datos requeridos para la prueba

    1. Construcción del modelo

Tarea Construir el modelo

Correr la herramienta de modelado sobre el conjunto de datos listo para crear uno o más modelos.

Salida Parámetros de ajuste

Con cualquier herramienta de modelado, hay a menudo un gran número de parámetros que pueden ser ajustados. Listar los parámetros y sus valores seleccionados, con la explicación (el razonamiento) para la elección.

Actividades

  • Determinar los parámetros iniciales

  • Documentar las razones para elegir aquellos valores

Salida Modelos

Controle la herramienta de modelado en el conjunto de datos listos para crear uno o más modelos.

Actividades

  • Ejecutar la técnica seleccionada sobre el conjunto de datos de entrada para producir el modelo

  • Post-procesar los resultados de minería de datos (por ejemplo, editar reglas, mostrar árboles)

Salida Descripción del modelo

Describir el resultado del modelado y evaluar su exactitud esperada, la robustez, y defectos posibles.

Informar sobre la interpretación de los modelos y encontrar cualquier de las dificultades.

Actividades

  • Describir cualquier características del modelo actual que puede ser útil para el futuro

  • Ajustar parámetro de entorno (de registro) usado para producir el modelo

  • Dar una descripción detallada del modelo y cualquier rasgo especial

  • Para modelos basados por regla, listar las reglas producidas, más cualquier evaluación de cada-regla o la exactitud y alcance total del modelo

  • Para modelos no transparentes, listar cualquier información técnica sobre el modelo (como la topología de las redes neuronales) y cualquier descripción de comportamiento producido por el proceso de modelado (como la exactitud o la sensibilidad)

  • Describir el comportamiento del modelo y la interpretación

  • Expresar conclusiones respecto a los patrones en los datos (si hay alguno); a veces el modelo revela hechos importantes sobre los datos sin un proceso de evaluación separado (por ejemplo, que la salida o la conclusión son duplicadas en una de las entradas)

    1. Evaluación del modelo

Tarea Evaluar el modelo

El modelo ahora debería ser evaluado para asegurar que se encontró criterios de éxito de la minería de datos y aprobar los criterios de prueba deseados. Esto es una evaluación puramente técnica basada en el resultado de las tareas modelado.

Salida Evaluación del modelo

Resumir los resultados de esta tarea, listar las calidades de los modelos generados (por ejemplo, en términos de exactitud), y el nivel de su calidad en relación a cada otro.

Actividades

  • Evaluar los resultados en lo que concierne a criterios de evaluación

  • Probar los resultados según una estrategia de prueba (por ejemplo: Corrida y Prueba, Validación cruzada, bootstrapping, etc.)

  • Comparar los resultados de la evaluación y la interpretación

  • Crear la clasificación de resultados en lo que concierne a criterios de éxito y evaluación

  • Seleccionar los mejores modelos

  • Interpretar los resultados en términos de negocio (tanto como sea posible en esta etapa)

  • Conseguir comentarios de los modelos por expertos en datos o en el dominio

  • Chequear la credibilidad del modelo

  • Comprobar los efectos sobre los objetivos de minería de datos

  • Comprobar los modelan contra una base de conocimiento determinada para ver si la información descubierta es nueva y útil

  • Comprobar la fiabilidad de los resultados

  • Analizar el potencial para el desarrollo de cada resultado

  • Si hay una descripción verbal del modelo generado (por ejemplo, en forma de reglas), evaluar las reglas: ¿Ellos son lógicos, o ellos son factibles, hay demasiadas reglas o hay demasiado poco, ellos violan el sentido común?

  • Evaluar resultados

  • Conseguir ideas específicas de cada técnica de modelado y ciertos parámetros de ajustes que conduzcan a resultados buenos/malos

¡Buena idea!

“Tablas de Elevación” y “Tablas de Beneficio” pueden ser construidas para determinar los bien que el modelo predice.

Salida Revisación de parámetros de ajuste

Según la evaluación del modelo, revise parámetros de ajuste y témplelos para la siguiente corrida en la tarea de Construcción del Modelo. Itere (repita) la construcción del modelo y evalúe hasta que usted encuentre el mejor modelo.

Actividades

Ajustar parámetros para producir mejores modelos.