Data Science con R

Dado que el Data Science está ahora de rabiosa actualidad por las múltiples aplicaciones que tiene la analítica en campos y entornos como la medicina, la política, la banca, seguros, finanzas, previsiones, smart cities, el marketing, la tecnología, ciencia, negocios, redes sociales, y un largo etcétera., gracias en gran parte a la enorme cantidad de datos que prolifera a nuestro alrededor, vamos a hablar un poco sobre el lenguaje más popular a la hora de hacer Data Science, estamos hablando del proyecto R.

Consola de R y Boxplot

Consola de R y Boxplot

R es un entorno de software Open Source para analítica de datos, computación estadística y visualización gráfica. Es un lenguaje de programación fácil de usar que permite completar procesos de analítica de datos con tan sólo unas líneas. Por tanto, aunque R sea un lenguaje de programación, no es necesario programar demasiado con él, en el sentido en que hay que escribir pocas líneas de código o de comandos para obtener buenos resultados.

De todas maneras todo depende de la complejidad del proyecto a abordar, y la analítica de datos es algo en lo que se puede profundizar todo lo que se quiera, y R dispone de muchísimas librerías o extensiones mantenidas por la comunidad open source, que permiten abordar la mayor parte de proyectos de analítica que se nos puedan pasar por la cabeza, ya sean simples, complejos, pequeños, o de gran envergadura. R surgió a partir del lenguaje de programación estadística S, desarrollado por John Chambers en los Laboratorios Bell en la década de 1970. 

La primera versión de R fue desarrollada por Robert Señores y Ross Ihaka en la Universidad de Auckland, en la década de 1990. Querían conseguir un  software estadístico más completo para utilizar en su laboratorio de formación de Macintosh y decidieron crear un lenguaje propio. Lo lanzaron como una alternativa open source a S y fomentando así la descarga y utilización del software, y también la ayuda y evolución en el desarrollo por parte de otros desarrolladores.

En la actualidad existen numerosas aplicaciones que se pueden utilizar para analítica de datos, entre las que tenemos algunas tan conocidas como IBM SPSS, SAS, Excel y sus add-ons para estadística, Stat, Minitab, Matlab, o las librerías pandas de Phyton. Cabría preguntarse porqué R ha emergido con tanta fuerza existiendo ya tantas aplicaciones y software de analítica de datos.

  • Una de las razones es que R es un lenguaje open source y, por tanto, de utilización gratuíta, y está disponible tanto para Mac como para Windows y Linux. R también se usa ampliamente.
  • R tiene más de dos millones de usuarios en todo el mundo, lo que significa que no dejan de aparecer nuevas necesidades, y también nuevas características que van creando los desarrolladores de esta enorme comunidad.
  • Ligado con el punto anterior, existe una gran cantidad de recursos proporcionados por la gran comunidad de R. Además, R facilita mucho la reutilización y la mejora de procesos de análisis realizados con anterioridad, por lo que el código compartido y los recursos en linea no paran de crecer.
  • R también tiene buenos gráficos y excelentes visualizaciones. Se puede trabajar con R directamente directamente desde la consola, con una interfaz de linea de comandos, pero también existen completas Interfaces Gráficas de usuario de código abierto, como RStudio o Rattle

En la página oficial de R se pueden encontrar muchos recursos para aprender y utilizar R, y el lenguaje se puede descargar desde el llamado CRAN (Comprehensive Archive R Network) En la red han surgido numerosos recursos para encontrar buena información, y formación sobre R. Vamos a hacer aquí un listado de los que encontremos más interesantes: