Minería de Datos aplicada a Datos del Gran Catamarca EPH 2017

MINERÍA DE DATOS APLICADA A DATOS DEL GRAN CATAMARCA DE LAS ENCUESTAS PERMANENTES DE HOGAR DEL AÑO 2017

El presente Trabajo Final tiene como objetivo aportar y complementar a los Análisis Clásicos de Estadística, con Técnicas novedosas de “Minería de Datos” que permitan detectar características comunes entre Hogares e individuos del Gran “Catamarca” en base a los Datos de la “Encuesta Permanente de Hogar”, realizada por el INDEC, correspondiente al primer Trimestre del año 2017.

En este trabajo se plantea el conocimiento existente sobre Minería de Datos, el Aprendizaje Automatizado Supervisado y No Supervisado, y sus Técnicas: “Árboles de Decisión” y “Clustering” respectivamente. Las Tecnologías básicas empleadas fueron: el Lenguaje de Programación “R”, y la herramienta “RStudio”.

La Metodología que se implementó en este trabajo es “CRISP-DM”, una de las mas empleadas por los Analistas de Negocio, principalmente en el Proceso de Minería de Datos. Es una Metodología sujeta a estándares internacionales, además de ser confiable y amigable para el usuario.

Se han aplicado las Técnicas de “Árboles de Decisión” y “Clustering”, obteniéndose, mediante estos análisis, descripciones gráficas en base a la situación socio-económica de la muestra poblacional. Mediante Clustering se pudo agrupar la población con características similares y se profundizó en el estudio de los grupos familiares de los centroides de los respectivos clusters.

Con Árboles de decisión se pudo determinar jerárquicamente la influencia de las variables objetivo “Nivel de Estudio” y “Tipo de Cobertura Social”, en función de un selecto grupo de variables predictoras; analizando las distintas situaciones socio-económicas.

 

Por Ramos, César Alejandro

Universidad Nacional de Catamarca