Una introducción a Big Data

Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan los negocios cada día. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que conduzcan a mejores decisiones y movimientos de negocios estratégicos.

Big Data es tan útil para muchas empresas porque proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. Proporciona un punto de referencia. Con una cantidad tan grande de información, los datos pueden ser moldeados o probados de cualquier manera que la empresa considere adecuada: las organizaciones son capaces de identificar los problemas de una forma más comprensible.

La búsqueda de tendencias dentro de los grandes volúmenes de datos permite que las empresas se muevan mucho más rápidamente, sin problemas y de manera eficiente. También les permite eliminar las áreas problemáticas.

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas oportunidades. Conduce a movimientos de negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las empresas con más éxito con Big Data consiguen valor en: reducción de costos, mejor y más rápida toma de decisiones, diseño de nuevos productos y servicios, etc.

- ¿Por qué se relacionan los términos Big Data y Cloud Computing?
Ambos van de la mano en el mar de información actual. Los volúmenes de datos estructurados y no–estructurados del Big Data son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales, por lo que la nube es el lugar adecuado para su tratamiento.

- ¿Cuál es el significado de Big Data en relación a las 3 V’s (dimensiones)?
Big Data procesar grandes Vólumenes (tera, peta, exa, zetta, yotta bytes) de datos, a una gran Velocidad (tiempo real) y con una gran Variedad de información (BD, texto, video, etc.)

- ¿Cuál es la cuarta dimensión de Big Data o cuarta “V”?
La Veracidad, es decir, obtener información verídica y útil que nos permita mejorar la toma de decisiones.
 

- Algunas fuentes del Big Data.
* Redes Sociales
* Bancos
* Instrumentos científicos
* Comercio electrónico
* Dispositivos móviles
* Tecnología de sensores y redes
 

- Algunas de las disciplinas y operaciones matemáticas/estadísticas complejas que requiere el Big Data.
* Machine Learning
* Statistical Elearning
* Clustering
* Trend Detection
* Análisis Exploratorio
* Modelos Predictivos
* Modelos de Sumarización
* Modelos Simbólicos
 

- Algunas características de la plataforma Hadoop.
* Es la plataforma líder para analizar enormes cantidades de información.
* Está inspirada en el proyecto de Google File System y en el paradigma de programación MapReduce: dividir en dos tareas (mapper – reducer) para manipular los datos distribuidos a nodos de un cluster logrando un alto paralelismo en el procesamiento.
* Está compuesto de 3 piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Haddop Common.
 

- El funcionamiento de Hadoop Distributed File System (HDFS).
Los datos en el cluster son divididos en pequeñas piezas llamadas bloques y distribuidas a través de un cluster de computadoras. De esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.

- El funcionamiento de MapReduce.
MapReduce es el núcleo de Hadoop. El proceso map, toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor).
reduce combina las tuplas en un conjunto más pequeño de las mismas.
La fase intermedia shuffle obtiene las tuplas de map y determina que nodo procesará estos datos dirigiéndolas a una tarea reduce en específico.

- La justificación del uso de los Objetos Simbólicos en Big Data.
* Los objetos en la vida real son muy complejos de representar por puntos en el espacio vectorial.
* Los Objetos Simbólicos superan esta limitación representando conceptos en lugar de individualidades.
* La extracción de conocimiento de grandes bases de datos es nuestro objetivo principal, como en Minería de Datos.
* El análisis simbólico de datos transforma la Minería de Datos en una herramienta para Big Data.

Será muy relevante establecer una gobernanza de los datos para el Big Data. Si nos hemos preocupado tanto por este aspecto en las bases de datos relacionales, será más importante pensar en la gobernanza global de la información. 

Proyectos de clasificación de la información podrán clasificarla de manera diferente: la imagen o el documento que antes no tenía la clasificación de sensible, tal vez ahora la tenga: lo que antes no era importante, ahora cobra otro sentido. Ahora tenemos minas de oro que cuidar y explotar al máximo.