Introducción a Apache Spark

Resource type
Manual

Hoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Hay que destacar que Spark lleva incluidas librerías específicas para tratar datos estructurados (SparkSQL(link is external)), integración con lenguaje R (Spark R(link is external)), capacidades para el streaming de datos (Spark Streaming(link is external)), machine learning (MLib(link is external)) y computación sobre grafos (GraphX(link is external)).

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark, las aplicaciones se ejecutan como un grupo independiente de procesos en el Cluster, dirigido por el programa principal.