Sección de Big data

Blog de guest

Big DataCon la llegada de la era de la información en la que nos encontramos inmersos, tanto la sociedad como las empresas se han visto forzadas a adaptarse a un nuevo entorno en el que moverse.

En el pasado las empresas tan sólo podían tener en cuenta la información más cercana a ellos mediante encuestas, análisis y estudios realizados a pie de calle. Esto hacía que esos estudios y encuestas fueran parciales y que la información usada para intentar predecir el impacto y la eficacia de una acción publicitaria dejará bastante que desear en ocasiones..

 

Blog de Sonia

Big Data - Conexiones en las redes sociales

Todo el mundo habla de Big Data. Esta palabra suena tanto a niveles técnicos y tecnológicos como a nivel empresarial, de organizaciones gubernamentales, o de campos tan dispares como la meteorología y la mejora de las previsiones del tiempo y otros fenómenos naturales, la construcción de casas inteligentes, las ciudades inteligentes, el deporte y los entrenadores personales, el marketing online perfectamente dirigido y personalizado, la medicina y los diagnósticos basados en datos, o diversos tipos de robots o máquinas que vayan aprendiendo de los datos..

 

Blog de Juan_Vidal

Cada vez más el Big Data y la analítica van estando más presentes en el día a día de un analista de negocio. Uno de los pilares de la transformación digital es el dato y cada vez es más necesario formarse en estos campos para un analista de negocio.

 

Una primera introducción en el Big Data y analytics podría ser:

 

  • Aprender a manejar grandes volúmenes de datos sin morir en el intento o generar Exceles inmantenibles o cuya ejecución se demora en exceso.
  • Conocer lo necesario (sin ser un experto) de estadística o machine learning para que me ayude en mis procesos de reporting y análisis.
  • Conocer lo necesario (sin ser un experto) de infraestructuras Big Data y Cloud para poder manejar y procesar lo que antes era inmanejable.
  • Beneficiarme de la capacidad de visualización de datos de herramientas potentes y sencillas de manejar.

 

Recomendamos el siguiente curso (gratuito)...

 

Big Data Analytics

Big Data Analytics with HankEn esta guía se muestra cómo extraer Hunk a una máquina virtual y configurar las variables y ficheros necesarios para poder utilizarlo. Aprenderás cómo ejecutar Hunk y configurar los datos proporcionados y un índice virtual para los datos CDR.

Así podrás definir una conexión a Hadoop y un índice virtual para los datos, y crear finalmente un cuadro de mando con un mapa.

 


 

Introducción a Apache Spark

Apache SparkHoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark..

Conectores de Pentaho para Big Data

Conectores de Pentaho para Cassandra - BigDataEste documento de Conectores Pentaho Big Data explora los principales conectores de Pentaho para Big Data, en las versiones Community y Enterprise y el significado de la tecnología de la que se nutre. 

Apache SparkSpark es un framework open source de Apache Software Foundation para procesamiento distribuído sobre clusters de ordenadores de grandes cantidades de datos, ideado para su uso en entornos de Big Data, y creado para mejorar las capacidades de su predecesor MapReduce.

Spark hereda las capacidades de escalabilidad y tolerancia a fallos de MapReduce, pero lo supera ampliamente en cuanto a velocidad de procesamiento, facilidad de uso y capacidades analíticas..

Arquitectura de apache Hadoop

La librería de software de Hadoop es un framework que permite el procesamiento distribuído de juegos de datos de gran volumen utilizando clusters de ordenadores o servidores, utilizado modelos de programación sencilla.

Hadoop está diseñado para escalar fácilmente desde sistemas de servidores únicos a miles de máquinas..

Editor de consultas SQL de Apache HiveHive es un software que trabaja sobre clusters de Hadoop creando una capa que permite al desarrollador abstraerse de la gestión de ficheros HDFS y de MapReduce mediante operaciones de consulta de datos basadas en SQL, con el lenguaje HiveQL.