Data Science con datos de Twitter: Obtención de datos de Twitter

Twitter, la red social de los 140 caracteres, se ha convertido en una fuente imprescindible para los que buscan tendencias locales o globales. No sólo eso, sino que podemos encontrar rápidamente los personajes o ideas más influyentes en dicha red analizando los datos que nos proporciona la API de Twitter.

Este artículo pretende darnos unas primeras nociones sobre el paso inicial en el análisis de datos de Twitter, que no es otro que obtener los datos con los que trabajar desde la conocida red social.

Para ello tenemos dos modos distintos de hacerlo:

  • Programáticamente. Mediante un código hecho a medida o por nosotros mismo en PHP, .NET o similares, para conectar con la API y trasladar los datos de interés a un fichero, sea hoja de cálculo, base de datos o un simple archivo de texto.
  • Mediante servicios web. Si queremos evitar pelearnos con líneas de código, errores de sintaxis y pormenores similares, nuestra solución será alguno de los servicios existentes que lo hacen de manera predefinida desde una web. La mayoría de ellos nos permiten descargar los datos obtenidos en una hoja de cálculo.

En este hilo os mostraremos dos ejemplos de los del segundo tipo, es decir, de servicios que se utilizan directamente desde la web. En nuestro caso serán dos: IFTTT y Zapier. Ambos se enmarcan dentro de la categoría de triggers. Estos triggers (disparadores en castellano), efectúan una acción concreta cuando un evento sucede o se dispara. Por ejemplo, cuando detecto un tweet nuevo de un usuario (proceso a detectar disparado) lo almaceno en mi hoja de cálculo.  

IFTTT: Sencillez y versatilidad en la obtención de datos

Este servicio sólo requiere de un rápido registro para poder usarlo (nos solicitará mail y contraseña). Será más complicado encontrar la funcionalidad deseada que utilizarla, pues las posibilidades de obtención de datos son muy elevadas. Hallamos diferentes recipes, que son las diversas funcionalidades o servicios que pueden utilizarse. Si hacemos una búsqueda de recipes con el texto twitter podemos ver un variado listado: obtención por hashtag, por retweets, por nombre de usuario, almacenamiento en hoja de cálculo de Google...

Recomendamos buscar el servicio más genérico, uno que obtiene datos de twitter y los almacena en una hoja de cálculo de Google, que se llama Twitter to spreadsheet. Nos pedirá permiso para conectarse a nuestra cuenta de Twitter y a Google Drive para almacenar los datos y aparecerá una pantalla como la que mostramos bajo estas líneas.

En nuestro caso hacemos una búsqueda con el hashtag #DataScience. Para ver todas las operaciones posibles presionamos el enlace marcado en azul Search operations. Podemos buscar tweets de un usuario concreto, dirigidos a otro usuario, o de un lugar o fechas concretos. Una vez configurado el campo de búsqueda proseguimos con la configuración de nuestro recipe. Nos faltan por definir las opciones relativas a la hoja de cálculo de Google Drive.

Como veis podemos definir el nombre de la hoja de cálculo, su ubicación en nuestro espacio de almacenamiento Drive y los campos a almacenar.

Este es sólo un ejemplo sencillo de uso de IFTTT. Con otras recipes podemos almacenar datos de tweets cuando se marcan favoritos de un determinado hashtag, cuando se retwittean, al ganar un nuevo seguidor, y múltiples opciones más. Recomendamos una navegación por ellas para hacernos una idea de las posibilidades.

Finalmente, para ver una obtención final de datos, mostramos los tweets generados la noche de entrega del Premio Planeta 2015 entre las 00:49 y las 00:52, con el hashtag #PremioPlaneta2015, almacenados ya en una hoja de cálculo de Google Drive.

La primera columna corresponde al usuario que twittea, la segunda es el texto del tweet, la tercera la dirección del tweet y la última la fecha. Remarcamos que éste es un ejemplo sencillo y que podemos obtener resultados con un número de campos mayor.

Veamos ahora otro potente servicio web para genera datos a través de tweets.

Zapier: la potente alternativa profesional

Si las opciones de IFTTT se nos quedan cortas, podemos probar Zapier, bastante similar en cuanto a idea original, pero más potente. Sólo tiene un inconveniente: que las posibilidades de la versión libre son reducidas y si queremos más deberemos rascarnos el bolsillo. Disponemos de un periodo de prueba de 14 días para usar todas las posibilidades a nuestro antojo. Requiere registro también, éste un poco más completo, pues nos solicitará también nombre y apellido.

Los menús son más sencillos y nos pide las opciones paso a paso, de manera que se hace más fácil de configurar y encontraremos las opciones deseadas probablemente más rápido que con el servicio anterior. Por contra, es probable que tarde más a ejecutarse.

Con este servicio se hace más sencillo seleccionar los campos a importar, ya que nos permite seleccionarlos directamente desde una lista con todas las opciones posibles. El resultado final es una hoja de cálculo de Google Drive, pero podríamos configurar otros ficheros de salida distintos. Para este segundo caso, el número de alternativas también es más amplio que con IFTTT.

Estos son sólo dos ejemplos de triggers o programas que automatizan el registro de datos cuando se produce un determinado evento en Twitter. Queda en vuestras manos ampliar la lista de servicios web a utilizar y probar si se ajustan mejor a vuestros intereses. Si encontráis alguno interesante no os olvidéis de dejar un comentario compartiéndolo.