Sección de Big data

Blog de guest

Big DataCon la llegada de la era de la información en la que nos encontramos inmersos, tanto la sociedad como las empresas se han visto forzadas a adaptarse a un nuevo entorno en el que moverse.

En el pasado las empresas tan sólo podían tener en cuenta la información más cercana a ellos mediante encuestas, análisis y estudios realizados a pie de calle. Esto hacía que esos estudios y encuestas fueran parciales y que la información usada para intentar predecir el impacto y la eficacia de una acción publicitaria dejará bastante que desear en ocasiones..

 

Blog de Sonia

Big Data - Conexiones en las redes sociales

Todo el mundo habla de Big Data. Esta palabra suena tanto a niveles técnicos y tecnológicos como a nivel empresarial, de organizaciones gubernamentales, o de campos tan dispares como la meteorología y la mejora de las previsiones del tiempo y otros fenómenos naturales, la construcción de casas inteligentes, las ciudades inteligentes, el deporte y los entrenadores personales, el marketing online perfectamente dirigido y personalizado, la medicina y los diagnósticos basados en datos, o diversos tipos de robots o máquinas que vayan aprendiendo de los datos..

 

Big Data Analytics

Big Data Analytics with HankEn esta guía se muestra cómo extraer Hunk a una máquina virtual y configurar las variables y ficheros necesarios para poder utilizarlo. Aprenderás cómo ejecutar Hunk y configurar los datos proporcionados y un índice virtual para los datos CDR.

Así podrás definir una conexión a Hadoop y un índice virtual para los datos, y crear finalmente un cuadro de mando con un mapa.

 


 

Introducción a Apache Spark

Apache SparkHoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark..

Editor de consultas SQL de Apache HiveHive es un software que trabaja sobre clusters de Hadoop creando una capa que permite al desarrollador abstraerse de la gestión de ficheros HDFS y de MapReduce mediante operaciones de consulta de datos basadas en SQL, con el lenguaje HiveQL.

 

Apache SparkSpark es un framework open source de Apache Software Foundation para procesamiento distribuído sobre clusters de ordenadores de grandes cantidades de datos, ideado para su uso en entornos de Big Data, y creado para mejorar las capacidades de su predecesor MapReduce.

Spark hereda las capacidades de escalabilidad y tolerancia a fallos de MapReduce, pero lo supera ampliamente en cuanto a velocidad de procesamiento, facilidad de uso y capacidades analíticas..