EPH para Data mining

Hola a todos, quisiera solicitar su ayuda y conocimiento, para poder responder mis dudas e inquietudes.

Estoy por trabajar con datos provenientes de la Encuesta Permante de Hogar (EPH) que realiza el Indec en argentina, estos datos provienen de muestras q se toman de una ciudad de cada provincia, realizada por trimestres ,desde el 2003 al 2011, de manera q en el mejor de los casos por cada año se obtiene datos de los 4 trimetres involucrados. La encuesta se centra en aspectos demograficos y sociales, de manera q por cada integrande del hogar puedo saber sus caracteristicas del hogar, datos personales como edad, sexo, estado, educación, situación laboral, en el caso de ocupado, el tipo de trabajo y en el caso de desocupado , el tipo de desocupado, todo esto se refleja con las 300 y algo de variables q presenta.

Mi inquietud y necesidad, me llevo a considera a los jovenes de educación superior (universitario, posgrado, doctorado) de noroeste y el tipo de trabajo asociado, es decir, ¿cuál es el tipo de trabajo a los q acceden los jóvenes de educación superior de noroeste del pais?, por lo q por ello realice un filtro a la base de datos disponible, reduciendola a 5500 registros aproximadamente, DUDA : ES POCA LA CANTIDAD PARA LLEVAR DATA MINING?, TENDRIA SENTIDO UN ANALISIS ASI?, para la reducción de vable, en el caso de columnas con datos erroneos, que criterio tomaria si los mismo son pocos en relación a la cantidad disponible?, que otra analisis podrian sugerir, en base a lo planteado, recordando q las vbles relacionadas con la desocupación presentan muchos errores de datos?.

Aqui les dejo la fuente , muchas gracias por su tiempo. Espero ayuda :):):

http://www.indec.gov.ar/principal.asp?id_tema=9556