Introducció a la mineria de dades

La mineria de dades, o data mining, és el procés no trivial de descobrir patrons vàlids, nous, potencialment útils i comprensibles dintre d'un conjunt de dades, segons la definició de Piatetsky-Shapiro publicada en la revista "AI Magazine". Per a simplificar-lo, podríem dir que la mineria de dades tracta d'extreure coneixement a partir de les dades. Mitjançant una sèrie de processos aplicats en diferents fases sobre les dades brutes, i definits per un expert que conegui el significat d'aquestes dades, i tingui clars els objectius que persegueix, es poden extreure relacions entre aquestes dades, descobrir patrons ocults i construir models que descriguin aquest coneixement. Les fases per les quals hauria de passar aquest procés de descobriment de coneixement són les següents: - Definició de la tasca de mineria de dades. Quins objectius es persegueixen? - Selecció de les dades - Preparació de les dades - Aplicació de processos de mineria de dades sobre les dades preparades - Avaluació i interpretació del model obtingut - Integració dels resultats en els sistemes d'informació És un procés continu, i que pot constar de diferents iteracions, on els resultats d'una iteració alimenten l'inici de la següent. Per descomptat, per a la realització de tot el procés existeixen diferents eines especialitzades que faciliten, o possibiliten, el pas per totes les fases. Dues de les més conegudes són SAS Enterprise Miner i SPSS Clementine. També existeix algun projecte de programari de lliure distribució, com WEKA, desenvolupat en la Universitat de Waikato, que permet realitzar processos de Data Mining.

 

 

 

Cerca amb el motor de Google

Google