Projecte DAAS: Datacleansing As A Service

No replies
imatge de carlos
Connectat
Joined: 28/12/2005
Puntos: 1208

He obert aquest tema per qui vulgui comentar qualsevol questió sobre el pla d'empresa que he publicat a l'article Dataclean.es: un projecte de serveis de neteja de dades sobre un projecte de creació d'una empresa que ofereixi serveis de neteja de dades online.

Espero els vostres comentaris!

n/d

Contingut relacionat

  • Ja fa un cert temps que em vaig plantejar la possibilitat d'iniciar un projecte que permetés oferir serveis de neteja de dades online. Si parlem en termes del que ara se sent més podriem interpretar-lo com un nou significat de les sigles DAAS, Datacleansing As A Service.

    El nom que jo vaig escollir en aquell moment va ser Dataclean.es, entre d'altres coses perquè el domini estava lliure. Vaig registrar-lo domini i vaig fer una aproximació a un pla d'empresa. Inclús vaig començar a preparar una web on volia implementar una primera versió sencilla de la idea. Aquest prototip s'ha quedat en gairebé només una simple estructura, però penso que pot servir per il.lustrar la idea.

    Com que finalment no em vaig decidir a donar el gran pas i desenvolupar el projecte, i és una pena que l'esforç que vaig dedicar a fer el plantejament es quedi en un no res, he decidit compartir l'aproximació al pla d'empresa que vaig preparar, adjunt en aquest post. També he posat online el prototipus web que vaig preparar, aviso que tal com el vaig deixar, no funciona gairebé res.

    Web Dataclean.es

  • En l'enllaç Managing Data Quality es pot accedir a un article de  Ron Hardman sobre com realitzar processos de neteja de dades amb Oracle Warehouse Builder.

    L'article comença amb una introducció a la qualitat de les dades i maneres de gestionar-la, una de les quals la utilització de les opcions de neteja de dades d'Oracle Warehouse Builder.

    L' interessant és que es mostra com obtenir un script amb dades de prova, i com configurar l'eina per provar les utilitats de Profiling, definició de Regles (Data Rules), i correcció o neteja  de les dades. D' aquesta manera es pot veure i provar de manera senzilla com implementar un procés bàsic de  Data Cleansing amb aquesta eina.

    L' article original està en anglès però buscant a la web d'Oracle he trobat els  3 documents que adjunt, traduïts al castella, i relacionats amb OWB i la neteja de dades:

    • Informe Executiu - Oracle Warehouse Builder 11g Versió 1 Informació General
    • Oracle Warehouse Builder Data Quality Option
    • Oracle Warehouse Builder Enterprise ETL Option

     

  • Amb el creixement d'internet, i dels projectes web de més èxit, cada vegada és més necessària la utilització de bases de dades escalables i que siguin capaços de gestionar amb agilitat ingents volums d'informació.
    Moltes vegades les bases de dades tradicionals no compleixen amb els requisits d'aquests sistemes, o almenys no compleixen amb un cost raonable, i així entren en joc projectes de bases de dades open source específicament orientades a cobrir aquest buit.

    Un cas que ja hem comentat és el de Cassandra DB, una base de dades distribuïda de programari lliure que ja utilitzen Digg, Facebook i Twitter.

  • La mineria de dades, o data mining, és el procés no trivial de descobrir patrons vàlids, nous, potencialment útils i comprensibles dintre d'un conjunt de dades, segons la definició de Piatetsky-Shapiro publicada en la revista "AI Magazine".

    Per a simplificar-lo, podríem dir que la mineria de dades tracta d'extreure coneixement a partir de les dades.
    Mitjançant una sèrie de processos aplicats en diferents fases sobre les dades brutes, i definits per un expert que conegui el significat d'aquestes dades, i tingui clars els objectius que persegueix, es poden extreure relacions entre aquestes dades, descobrir patrons ocults i construir models que descriguin aquest coneixement. Les fases per les quals hauria de passar aquest procés de descobriment de coneixement són les següents:

  • Aborda la Necessitat de Negoci de solucions de BI ràpides, flexibles i de baix cost

    Pentaho Corporation, líder en Business Intelligence Open Source, ha anunciat avui la seva nova On-Demand BI Suite Suscription, que elimina barreres crítiques per l'adopció de BI, donant al client un control complet sobre com la solució és implementada i gestionada per Pentaho, pel client, o per ambdós. A més, Pentaho ha anunciat la disponibilitat d'un entorn on-demand d'avaluació, permetent així a les empreses provar fàcilment Pentaho BI Suite amb les seves pròpies dades sense necessitat d'utilitzar maquinari propi ni personal dedicat.

    Per llançar el nou servei, Pentaho Services ofereix l'anomenat 72-Hour Challenge, que consisteix en que les empreses proporcionen Pentaho les seves pròpies dades i Pentaho tindrà un complet projecte d'avaluació en marxa i funcionant en aquestes 72 hores, incloent indicadors clau de rendiment i quadres de comandament. La solució es mantindrà en línia durant tres setmanes en les quals el client podrà explorar i ampliar-la a la seva conveniència...