El Big Data: cómo aplicar la teoría de los n-cuerpos a los n-datos

El problema de los n-cuerpos consiste en determinar, en cualquier instante, las posiciones y velocidades de tres cuerpos, de cualquier masa, sometidos a su atracción gravitacional mutua y partiendo de unas posiciones y velocidades dadas

 
El resultado del problema de los n-cuerpos, más allá de la interactividad de esos 3 cuerpos sometidos a la gravedad, se convierte en el caos y es casi siempre imposible predecir con precisión sus movimientos, sobre todo si los cuerpos tienen una composición diferente. Si exageneramos esta analogía, el Big Data ( o al menos la definición que casi todos manejamos sobre el) supone un problema similar al de los n-cuerpos, pero con DATOS.
 
Teoría de los n-cuerpos para Big dataExisten numerosas definiciones en la industria y entre los fabricantes sobre que es Big Data. Y en realidad, hay algo de verdad en cada una de ellas. Mi colega Michael Hay posteó recientemente una  definición sobre el "Big Data del Futuro" en un blog. Lo que me gustaría añadir a estas definiciones, e incluir habitualmente en mis conversaciones sobre Big Data, es que se trata también de la compleja interacción entre los diferentes tipos de datos para formar un solo hilo de información.
 
Esta expresión sirve tanto para los diferentes tipos de datos como para las diferentes fuentes de las cuales se extraen estos como: almacenamiento persistente, procedentes de sensores, de las redes sociales y así sucesivamente. Obviamente, la diferencia es que nosotros  queremos resultados ordenados y previsibles antes de lo que el problema de los n-cuerpo podría sugerir. Tal vez en la investigación sobre Big Data a esto se le llamaría “el problema de los n-datos”, pero con resultados impredecibles y útiles.
 
Si pensamos en ello, la innovación en la información ha evolucionado desde una única base de datos como fuente de información, a una amplia variedad de fuentes de datos a diferentes velocidades. Estos datos pueden ser de diferentes épocas, pero tratando de interactuar unos con otros, con las atracciones de la fuerza, y produciendo complejas asociaciones para entender el significado y en última instancia, producir un resultado inesperado pero útil. Esta combinación de diferentes tipos de datos, en algunos casos aparentemente sin relación alguna, es la base de la ciencia ficción y la publicidad de marketing.
 
Este concepto me asaltó recientemente en una conversación con un cliente europeo del sector energético. La conversación giró en torno al procesamiento de datos sísmicos utilizando sistemas HPC. ¿Sabían ustedes que en ocasiones, las compañías petroleras no siempre buscan “petróleo” en los datos sísmicos históricos? Ellos ya saben que hay petróleo allí. Pero lo que ahora están intentado analizar es si es o no "económicamente rentable" extraer este petróleo o gas. Ahora utilizo el término "económicamente justificable" como un término ponderado. Esto significa que en el momento del estudio, el barril de petróleo estaba sobre los 10 dólares, pero la cantidad y las condiciones del entorno donde se encontraba hacían  demasiado cara su extracción. El análisis de esta información podría incluir: cantidad (no hay suficientes datos disponibles para determinar la cantidad de gas), medio ambiente (si el gas se encuentra bajo una reserva natural o una ciudad), y la situación (si el gas está demasiado profundo o el suelo es demasiado duro para perforar), y así sucesivamente.
 
Una de las razones por las que algunos clientes prefieren conservar los datos para siempre, especialmente en la industria petrolera, es que los procesos de análisis y sus herramientas son cada vez mejores. Esto se debe a mejores infraestructuras, nuevas mejoras de software, nuevos algoritmos matemáticos o mejoras en los tiempos para analizar los datos. En resumen, la industria petrolera nos muestra aquí la mejor forma de extraer nuevas informaciones y muy útiles y utilizando datos antiguos.
 
En cualquier caso, la industria del petróleo y el gas es probablemente, hoy en día,  uno de los casos de usuarios más exitosos en la utilización del concepto Big Data (con mi definición adicional). El análisis incluye ahora mucho más que el simple procesamiento de la fuerza bruta de datos sísmicos. Se combinan los datos de situación actuales con los resultados de una ejecución sísmica. Somos capaces de procesar nuevos parámetros como: las nuevas técnicas de perforación, los sistemas de “fracking” hidráulico, la perforación horizontal, nuevos procesos de refinería, políticas de regulación e impuestos, las condiciones climáticas, el análisis de sentimiento en medios sociales o las políticas nacionales o monetarias entre otros. Todos estos parámetros se combinan en sus análisis de Big Data. Cada una de las fuentes de datos es en sí mismo un complejo sistema dando unos resultados como una parte de este proceso.
 
Cuando afirmo que el problema de los n-cuerpos es "casi imposible" de predecir, al menos con precisión, lo que quiero decir es que el resultado, no importa el que sea, es útil. Del mismo modo, con Big Data, las complejas relaciones entre los diferentes tipos de datos y la correspondiente orquestación de combinarlos en el problema de “los n-datos” quizá no pueden dar lugar a un resultado predecible, pero lo que se debe buscar es un resultado impredeciblemente útil.
 
 
Ángel Fernández,
Director General de Hitachi Data Systems Iberia