Apache Spark

Spark es un framework open source de Apache Software Foundation para procesamiento distribuído sobre clusters de ordenadores de grandes cantidades de datos, ideado para su uso en entornos de Big Data, y creado para mejorar las capacidades de su predecesor MapReduce.

Spark hereda las capacidades de escalabilidad y tolerancia a fallos de MapReduce, pero lo supera ampliamente en cuanto a velocidad de procesamiento, facilidad de uso y capacidades analíticas.

Apache Spark se ejecuta sobre una JVM (máquina virtual de Java) y soporta diversos lenguajes como Java, Scala, Python, Clojure y R para el desarrollo de aplicaciones que pueden realizar operaciones de Map y Reduce interactuando con el core de Spark a través de su API.

Ecosistema Apache Spark

Adicionalmente a la API del Core, a un nivel más alto, el llamado Ecosistema de Spark proporciona librerías que proporcionan capacidades añadidas de Machine Learning y Analítica para Big Data.

Las librerías más importantes de Spark son:

Spark Streaming: para procesamiento de datos de streming en tiempo real
Spark SQL + DataFrames: proporciona una capa para poder conectar con datos de Spark a través de una API JDBC, permitiendo así ejecutar consultas de estilo SQL a herramientas tradicionales de BI y visualización de datos.
Spark MLlib: librería de Aprendizaje Automático, que permite utilizar algoritmos y utilidades de Machine Learning.
Spark GraphX: es una API para generación de gráficas y computación paralela de gráficos.

Inicie sesión para enviar comentarios

Otros productos software del fabricante

Apache Hive

Editor de consultas SQL de Apache Hive

Hive es un software que trabaja sobre clusters de Hadoop creando una capa que permite al desarrollador abstraerse de la gestión de ficheros HDFS y de MapReduce mediante operaciones de consulta de datos basadas en...

Apache Hadoop

Arquitectura de apache Hadoop

La librería de software de Hadoop es un framework que permite el procesamiento distribuído de juegos de datos de gran volumen utilizando clusters de ordenadores o servidores, utilizado...

Prueba Semrush gratis 14 días!

Empresas especializadas

Featured software

LANSA BI

LANSA BI es una herramienta de business intelligence que se integra de manera nativa con bases de datos IBM DB2, y especialmente diseñada para aportar analítica a aplicaciones IBM i/AS400.

La integración nativa con DB2 permite realizar análisis de datos y...

Globalgest ERP

Globalgest ERP es un software de planificación de recursos empresariales basado en la nube, diseñado para empresas constructoras, del sector de la ingeniería, de medioambiente o fotovoltaicas y de instalaciones en general..

LANSA ERP Frameworks

LANSA ERP Frameworks es una solución ERP de código abierto para IBM i (System i, iSeries, AS/400) que proporciona una solución empresarial integral, dashboards, flujos de trabajo avanzados, integración de escritorio y consultas y informes flexibles para usuarios finales..