Debate Que significa Exploracion de datos en el modelo CRISP - DM

Buenos días,

 

Me llamo Carlos Ernesto soy egresado de Ingeniería de sistemas y he estado siguiendo el tema de metodologías para el desarrollo de Inteligencia de negocios y minería de datos. Hace poco encontre este sitio, y me parecio muy interesante el esfurzo que estan haciendo por construir un portal completo sobre esta temática en Español.

He revisado varias veces la guia CRISP - DM tanto la original en ingles como la que han dispuesto aqui en español. Y en ambos casos he encontrado poca claridad en la segunda fase de comprención de datos. Específicamente en la parte referente a la exploración de datos. En lo particular entendería que se trata de ubicar que atributos pueden responder a las cuestiones de mineria de datos. Sin embargo también hablan de generar agrupamientos, sumatorias y operaciones estadisticas. lo cual me deja desorientado.

No se si solo me sucede a mi pero me gustaría poder discutir este punto y promover la formación de conocimiento para este foro.

 

Att, Carlos

Hola Carlos

Gracias por el cumplido, y por el interés por crear y compartir conocimiento, ese es el principal objetivo de Dataprix.
Con respecto a lo que comentas realmente en CRISP-DM se proporciona una guia inicial, pero estaría bien poder profundizar un poco más. Espero que entre todos podamos sacar algo más en claro.
Yo entiendo que en la fase de exploración se trata sobretodo de analizar los datos de que dispones, y evaluar si van a ser suficientes, o de bastante calidad como para poder aplicar los procesos de las fases siguientes, que te lleven a la consecución de los objetivos de negocio que pretendes conseguir.
De esta manera detectarás si en tus datos existe alguna carencia, y comenzarás a organizarlos para empezar el tratamiento.
Seguro que para conseguir los datos que necesitas vas a tener que buscar en diferentes ficheros, tablas o bases de datos, y hacer un esfuerzo para entender lo que significa 'cada columna' en cada origen, si es lo que buscas y si el formato te va bien. Después habrá que integrarlo todo, relacionar los datos, completar lo que falte, y ver si las medidas se adaptan a los procesos que tengas que aplicar más adelante.

Con respecto a la exploración, una vez que tengas algo integrado hay que ver con análisis sencillos si estos datos van a apoyar las hipótesis de negocio que te has planteado, o si examinándolos mínimamente vas a tener que cambiar algo de lo que te planteabas al inicio.
Como el datamining está basado en técnicas estadísticas los análisis más indicados son los mismos que se suelen realizar anter de iniciar procesos de estadística: estudiar la distribución de las variables, si trabajamos con muestras averiguar si son representativas de una población, o buscar agrupaciones que 'salten a la vista' y empezar a preparar hipótesis sobre los diferentes grupos que vamos a encontrar. En definitiva, utilizar técnicas estadísticas pero con objetivos de minería de datos en mente.

Bueno, esto es lo que yo entiendo, a ver si alguien con más experiencia en estos temas puede ilustrarnos mejor..