Introducción a Spark en Taller BigData de Open Analytics

Ver vídeo

Presentación de Spark en el taller de BigData de OpenAnalytics, por Francisco Javier Pulido, de ExploraData.

Comienza presentando Hadoop como la tecnología más asociada a BigData, y algunos de los problemas que presenta, y que en parte se pueden evitar con Spark.

Spark es un motor para el procesamiento de grandes volúmenes datos que gracias a interactividad hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y se puedan realizar más operaciones (mappers, reducers, joins, groups by, filtros...).

También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.

Cómo instalar y utilizar Putty para conectar por SSH desde Clientes Windows

Ver vídeo

Putty es una utilidad gratuíta para establecer conexiones remotas por SSH. Se puede utilizar para conectar con instancias de Amazon, pero hay que saber configurarlo.

En este video se explica cómo:

  • Configurar el terminal Putty para una conexión por SSH
  • Obtener una dirección pública de DNS para la instancia de Amazon
  • Configurar el cliente SSH Putty para conectar con Amazon

Este video forma parte del video curso de Packt 'Building Hadoop Clusters', en el que se detalla cómo iniciarse con Hadoop y sus servicios, conocer su arquitectura, deployar instancias de Amazon con clusters de Hadoop, y configurar una instalación de Linux optimizada para Hadoop.

 

Este es el temario del curso: