Proyecto de analítica de datos de redes sociales

Estoy planteándome comenzar un proyecto de analítica de datos a partir de interacciones en redes sociales, obteniendo datos a través de las API que proporcionan las redes.

Quiero comenzar con datos de Twitter, siguiendo un poco la idea de del post de Sergio sobre obtención de datos de Twitter con servicios web como Zapier o IFTTT, pero en lugar de utilizar los servicios de estos sitios y volcar los datos sobre hojas de cálculo, quiero utilizar un software de ETL para conectar con las redes sociales y guardar los datos en tablas de bases de datos.

Las herramientas de ETL que me planteo utilizar son Pentaho Data Integrator (Kettle para los amigos) o SQL Server Integration Services, pero aún no tengo claro cuál me va a ir mejor para mis objetivos.

He buscado un poco a ver si encontraba algún ejemplo de cada una que hiciera algo así como una conexión a la API actual de Twitter para recoger datos de Tweets, y guardar los datos que devuelva la API en tablas de mi base de datos, pero no he encontrado un ejemplo con código que me funcionara bien, ya que casi todo lo que hay es para llamar a la API desde PHP , ASP o lenguajes de programación, y por eso planteo aquí la cuestión.

¿Qué me recomendáis, utilizar SSIS o mejor Kettle?

¿Alguien sabe de algún ejemplo, un package de SSIS que conecte con la API v1.1 de Twitter, o un script de Visual Basic o C# que pueda utilizar en una tarea de script de Integration Services? ¿O un archivo .ktr de transformaciones de Spoon que me sirvan para interactuar con Twitter?

 

Hola

 

En kettle hay varios ejemplos para interactuar con twitter:

 

C:\pdi5\samples\transformations\real-time-streaming\Read a twitter stream.ktr

C:\pdi5\samples\transformations\real-time-streaming\Twitter JSON parsing and hashtag aggregation.ktr

C:\pdi5\samples\transformations\User Defined Java Class - Real-time search on Twitter.ktr

 

Puedes comenzar con ellos para ver si se adaptan a lo que quieres.

De SSIS, ni idea.

 

Ves informando de tus avances, parece interesante.

En respuesta a por Matey (no verificado)

Muy buena sugerencia, no sabía que en los samples de PDI había transformaciones que trabajan con Twitter. A ver si encuentro tiempo para probarlas y puedo explicar qué tal funcionan.

Gracias Matey!

Pues finalmente comencé el proyecto, y como tenía ganas de probar cosas, monté una combinación muy curiosa:

Para la orquestación general y principales procesos de carga he utilizado SSIS.

Para la recogida de datos de Twitter utilicé Informatica Powercenter Express, que tenía un conector que me venía al pelo. Hablo en pasado porque esta versión express era gratuíta, pero ahora ya no está disponible sin licencias de Informatica, y los conectores con la API me han dejado de funcionar.

Para la parte de preparación de envío de acciones a Twitter he utilizado Pentaho Data Integration para las tareas relacionadas con base de datos y ficheros, y Python y la librería Tweepy para enviar las acciones a la API de Twitter.

¿Qué os parece la combinación? Ahora estoy reemplazando lo que hacía Powercenter por Python y SSIS, y probablemente a la larga, para unificar, aunque funciona perfectamente, la parte de PDI también la pasaré a SSIS.

¿Alguien lo haría de otra manera?