Tipos de problemas de minería de datos

Tipos de problemas de minería de datos Dataprix 15 Septiembre, 2007 - 18:00
  1. Tipos de problemas de minería de datos

Por lo general, los proyectos de minería de datos implican una combinación de diferentes tipos de problema, que juntos solucionan el problema de negocio.

    1. Descripción de datos y resumen

La descripción y el resumen de datos apuntan a la descripción concisa de las características de los datos, típicamente en forma elemental y agregada. Esto da al usuario una descripción de la estructura de los datos. A veces, una descripción y resumen de los datos solo puede ser un objetivo de un proyecto de minería de datos. Por ejemplo, un minorista podría estar interesado en el volumen de ventas de todas las salidas separado por categorías. Los cambios y diferencias de un período anterior podrían ser resumidos y destacados. Esta clase de problema estaría en lo mas bajo de la escala de problemas de minería de datos.

En casi todos los proyectos de minería de datos, sin embargo, la descripción y resumen de los datos son un objetivo subordinado en el proceso, típicamente en sus tempranas etapas. En el principio de un proceso de minería de datos, el usuario a menudo no conoce, ni el objetivo preciso del análisis, ni la naturaleza exacta de los datos. La exploración inicial del análisis de datos puede ayudar a los usuarios a entender la naturaleza de los datos y formar hipótesis potenciales de la información oculta. La estadística descriptiva simple y las técnicas de visualización proporcionan las primeras ideas sobre los datos. Por ejemplo, la distribución de clientes por edad y regiones geográficas sugiere que partes de un grupo de clientes necesita para ser dirigida para futuras estrategias de comercialización (marketing).

La descripción y el resumen de datos típicamente ocurren en combinación con otros tipos de problemas de minería de datos. Por ejemplo, la descripción de datos puede conducir a la postulación (presunción) de segmentos interesantes en los datos. Una vez que los segmentos son identificados y definidos, una descripción y un resumen de estos segmentos son útiles. Es aconsejable llevar a cabo una descripción y resumen de datos antes de que cualquier otro tipo de problema de minería de dato sea especificado (dirigido). En este documento, esto esta reflejado en el hecho que la descripción y resumen de datos es una tarea en la fase de comprensión de datos.

El resumen también juega un papel importante en la presentación de los resultados finales. Los resultados de otros tipos de problemas de minería de datos (por ejemplo, las descripciones de conceptos o los modelos de predicción) también pueden ser considerados resumen de datos, pero sobre un nivel conceptual más alto.

Muchos sistemas de informe, paquetes estadísticos, OLAP, y sistemas EIS pueden cubrir la descripción y resumen de datos, pero hacerlo usualmente no proporciona algunos métodos para realizar modelado más avanzado. Si la descripción y resumen de datos son considerados un tipo de problema independiente y ningún modelado futuro es requerido, entonces estas herramientas pueden ser apropiadas para realizar los compromisos de minería de datos.

    1. Segmentación

La segmentación apunta a la separación de los datos en subgrupos o clase significativos e interesantes. Todos los miembros de un subgrupo comparten características comunes. Por ejemplo, en el análisis de cesta de compras, uno podría definir los segmentos de cestas según los artículos que ellos contienen.

La segmentación puede ser realizada a mano o semi-automáticamente. El analista puede suponer ciertos subgrupos como relevantes para la pregunta de negocio, basada sobre un conocimiento previo o sobre el resultado de la descripción y el resumen de datos. En adición, hay también técnicas automáticas de agrupamiento (clustering) que pueden descubrir las estructuras antes insospechadas y ocultas en datos que permite la segmentación.

La segmentación a veces puede ser un objetivo de minería de datos. Entonces la detección de segmentos sería el objetivo principal de un proyecto de minería de datos. Por ejemplo, todas las direcciones en áreas de código postal con la edad mas alta que el promedio y un ingreso podrían ser seleccionadas para enviar publicidad para seguro de clínica de ancianos.

Muy a menudo, sin embargo, la segmentación es un paso hacia la solución de otros tipos de problema. Entonces, el objetivo es de guardar (mantener) el tamaño de los datos manejables o encontrar los subconjuntos de datos homogéneos que son más fáciles para analizar. Típicamente en grandes conjuntos de datos variados afectan el alcance de cada uno y obscurece los patrones interesantes. Entonces, la segmentación apropiada hace la tarea más fácil. Por ejemplo, analizar las dependencias entre artículos en millones de cestas de compras es muy difícil. Esto es mucho más fácil (y más significativo, generalmente) para identificar dependencias en los segmentos interesantes de cestas de compras -por ejemplo, cestas de alto valor, cestas que contienen bienes de confort, o cestas de un día o de un periodo particular.

Nota: En la literatura, hay algo de ambigüedad en el significado de ciertos términos. A veces llaman a la segmentación agrupamiento (clustering) o clasificación (classification). El último término es confuso porque algunas personas lo usan para referirse a la creación de clases, mientras que otros piensan en la creación de modelos para predecir las clases conocidas para casos antes no vistos. En este documento, restringimos el término de clasificación al último significado (vea abajo) y usar el término segmentación con el antiguo significado, aunque las técnicas de clasificación puedan ser usadas para obtener descripciones de los segmentos descubiertos.

Técnicas apropiadas:

  • Técnicas de agrupamiento (clustering)

  • Redes Neuronales

  • Visualización

Ejemplo:

Una empresa de venta de autos con regularidad recoge información sobre sus clientes acerca de sus características socioeconómicas como el ingreso, la edad, el sexo, la profesión, etc. Usando análisis de agrupamiento, la empresa puede dividir a sus clientes en subgrupos más comprensibles y analizar la estructura de cada subgrupo. Estrategias de control de comercialización (marketing) específicas son desarrolladas para cada grupo separado.

    1. Descripciones de concepto

La descripción de concepto apunta a una descripción comprensible de conceptos o clases. El objetivo no es para completar el desarrollo de modelos con predicción de exactitud alta, sino para ganar ideas. Por ejemplo, una empresa puede estar interesada en el estudio sobre sus clientes más leales y desleales. De una descripción de concepto de estos conceptos (clientes leales y desleales) la compañía infiere que podría estar hecho para encontrar clientes leales o transformar clientes desleales a clientes leales.

Una descripción de concepto tiene una conexión cercana tanto a la segmentación como a la clasificación. La segmentación puede conducir a una enumeración de objetos que pertenecen a un concepto o clase sin proporcionar cualquier descripción comprensible. Típicamente la segmentación es llevada a cabo antes de que la descripción de concepto sea realizada. Algunas técnicas -técnicas de agrupamiento conceptuales, por ejemplo -ejecutan la segmentación y descripción de concepto al mismo tiempo.

Las descripciones de concepto también pueden ser usadas para objetivos de clasificación. Por otra parte, algunas técnicas de clasificación producen modelos de clasificación comprensibles, que pueden entonces ser consideradas descripciones de concepto. La distinción importante es que la clasificación apunta a ser completa en algún sentido. El modelo de clasificación tiene que aplicarse a todos los casos en la población seleccionada.

De otra manera, las descripciones de concepto no tienen que ser completas. Es suficiente si ellos describen las partes importantes de los conceptos o clases. En el ejemplo mencionado, puede ser suficiente conseguir las descripciones de conceptos de aquellos clientes que son claramente leales.

Técnicas apropiadas:

  • Métodos de inducción de reglas

  • Agrupamiento conceptual

Ejemplo:

Usando datos sobre los compradores de coches nuevos y una técnica de inducción de regla, una empresa de coche podría generar las reglas que describen sus clientes leales y desleales. Debajo son los ejemplos de las reglas generadas:

Si SEXO = macho y EDAD > 51 entonces CLIENTE = leal

Si SEXO = hembra y EDAD > 21 entonces CLIENTE = leal

Si PROFESIÓN = gerente y EDAD < 51 entonces CLIENTE = desleal

Si ESTADO CIVIL = soltero y EDAD < 51 entonces CLIENTE = desleal

    1. Clasificación

La clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o rasgo que pertenece a diferentes clases. La etiqueta de clase es un valor (simbólico) discreto y es conocido para cada objeto. El objetivo es para construir los modelos de clasificación (a veces llamados clasificadores), que asigna la etiqueta de clase correcta a objetos antes no vistos y sin etiquetas.

Los modelos de clasificación sobre todo son usados para el modelado predictivo.

Las etiquetas de clase pueden ser presentadas en el avance -definida por el usuario, por ejemplo, o derivadas de la segmentación. La clasificación es uno de los tipos de problemas más importantes de minería de datos que ocurren en una amplia gama de aplicaciones. Muchos problemas de minería de datos pueden ser transformados a problemas de clasificación. Por ejemplo, intentando guardar créditos para evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un problema de clasificación para crear dos clases, clientes buenos y clientes malos. Un modelo de clasificación puede ser generado de los datos de cliente existentes de acuerdo a su comportamiento crediticio. Este modelo de clasificación puede entonces ser usado para asignar a clientes nuevos a una de las dos clases y aceptarlo o rechazarlo.

La clasificación tiene conexiones a casi todos los otros tipos de problemas. Los problemas de predicción pueden ser transformados a los problemas de clasificación por discretización de etiquetas de clase continuas, porque las técnicas de discretización permiten transformar rangos continuos en intervalos discretos. Estos intervalos discretos, más que los valores numéricos exactos, son usados como etiquetas de clase, y de ahí conducen a un problema de clasificación. Algunas técnicas de clasificación producen una clase comprensible o descripciones de concepto. Hay también una conexión al análisis de dependencia porque los modelos de clasificación típicamente usan (explotan) y aclaran las dependencias entre atributos.

La segmentación puede también proporcionar las etiquetas de clase o restringir el conjunto de datos para que buenos modelos de clasificación puedan ser construidos. Es útil analizar desviaciones antes de que un modelo de clasificación sea construido. Las desviaciones y contingencias (cosas fuera de lugar-outliers) pueden obscurecer el patrón que podría permitir un buen modelo de clasificación. De otro modo, un modelo de clasificación también puede ser usado para identificar desviaciones y otros problemas con los datos.

Técnicas apropiadas:

  • Análisis de discriminante

  • Métodos de inducción de regla

  • Aprendizaje por árboles de Decisión

  • Redes neuronales

  • La K más cercana

  • Razonamiento basado en caso

  • Algoritmos genéticos

Ejemplo:

Los bancos generalmente tienen información sobre el comportamiento de pago de sus aspirantes de crédito. Combinando esta información financiera con otra información sobre los clientes, como el sexo, la edad, el ingreso, etc., es posible desarrollar un sistema para clasificar a clientes nuevos como clientes buenos o malos (esto es, el riesgo de crédito en la aceptación de un cliente es alto o bajo).

    1. Predicción

Otro tipo de problema importante que ocurre en una amplia gama de usos es la predicción. La predicción es muy similar a la clasificación.

La única diferencia es que en la predicción el atributo objetivo (la clase) no es un atributo cualitativo discreto, pero es uno continuo.

El objetivo de la predicción esta en encontrar el valor numérico del atributo objetivo para objetos no vistos. En la literatura, este tipo de problema es a veces llamado regresión. Si la predicción trata con datos de serie tiempo, entonces a menudo lo llaman pronosticación.

Técnicas apropiadas:

  • Análisis de regresión

  • Árboles de regresión

  • Redes neuronales

  • La K más cercana

  • Métodos de la Caja-Jenkins

  • Algoritmos genéticos

Ejemplo:

El rédito anual de una empresa internacional esta correlacionado con otros atributos como la promoción, la tasa de cambio, la tasa de inflación, etc. Teniendo estos valores (o estimaciones confiables), la empresa puede predecir su rédito esperado durante el próximo año.

    1. Análisis de dependencia

El análisis de dependencia consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre artículos de datos o acontecimientos. Las dependencias pueden ser usadas para predecir el valor de unos datos de artículo dada la información sobre otros artículos de datos. Aunque las dependencias pueden ser usadas para el modelado predictivo, aquellos son mas usados por su comprensión. Las dependencias pueden ser estrictas o probabilísticas.

Las asociaciones son un caso especial de dependencias, que recientemente se han hecho muy populares. Las asociaciones describen las afinidades de artículos de datos (esto es, artículos de datos o los acontecimientos que con frecuencia ocurren juntos). Un típico escenario de aplicación para asociaciones es el análisis de cestas que hacen compras. Allí, una regla como “en el 30 por ciento de todas las compras, la cerveza y cacahuetes han sido comprados juntos” es un ejemplo típico para una asociación.

Los algoritmos para detectar asociaciones son muy rápidos y producen muchas asociaciones. Seleccionar el más interesante es un desafío.

El análisis de dependencia tiene conexiones cercanas a la predicción y a la clasificación, ya que las dependencias implícitamente son usadas para la formulación de modelos predictivos. Hay también una conexión a descripciones de concepto, que a menudo destacan dependencias.

En aplicaciones, el análisis de dependencia a menudo co-ocurre con la segmentación. En grandes conjunto de datos, las dependencias son raras veces significativas porque muchas influencias cubren el uno al otro. En tales casos, es aconsejable realizar un análisis de dependencia sobre más segmentos homogéneos de datos.

El modelo secuencial es una clase especial de dependencia en las que el orden de acontecimientos es considerado. En un análisis de cesta de compras, las asociaciones describen dependencias entre artículos en un tiempo dado. El patrón secuencial describe el modelo que hace compras de un cliente particular o un grupo de clientes en el tiempo.

Técnicas Apropiadas:

  • Análisis de correlación

  • Análisis de regresión

  • Reglas de asociación

  • Redes bayesianas

  • Programación de lógica inductiva

  • Técnicas de visualización

Ejemplo 1:

Usando el análisis de regresión, un analista de negocio ha encontrado que hay dependencias significativas entre las ventas totales de un producto y tanto en su precio como en la cantidad de gastos de publicidad. Este conocimiento permite al negocio alcanzar el nivel deseado de las ventas por cambio del precio del producto y/o el gasto de publicidad.

Ejemplo 2:

Aplicando algoritmos de regla de asociación a datos sobre accesorios de coche, una empresa de coches ha encontrado que en el 95 por ciento de casos, si un CD player es ordenado, una transmisión automática es ordenada también. Basado en esta dependencia, la empresa de coche decide ofrecer estos accesorios como un paquete, que conduce a la reducción del costo.