Arquitectura de almacenamiento: data lakes, data warehouses y lakehouses — cuándo usar cada uno

La decisión entre data lake, data warehouse o lakehouse no es una mera elección tecnológica: define cómo su organización almacenará, procesará y extraerá valor de los datos durante los próximos años. Esta arquitectura condiciona los tiempos de acceso, los costes operativos, la agilidad analítica y, en última instancia, la capacidad competitiva de la empresa.

Puntos clave que vamos a tratar:
- Las características fundamentales, ventajas y limitaciones de cada arquitectura
- Criterios técnicos y de negocio para seleccionar la estrategia adecuada
- Patrones híbridos y arquitecturas convergentes (lakehouse)
- Migración y coexistencia de múltiples paradigmas
- Errores comunes y antipatrones que debe evitar..

Open Source for Big Data: An Overview

Software Open SourceThis article will describe the relevance of open source software and big data before describing five interesting and useful open source big data tools and projects.

Big data workloads are those that involve the processing, storage, and analysis of large amounts of unstructured data to derive business value from that data. Traditional computing approaches and data processing software weren’t powerful enough to cope with big data, which typically inundates organizational IT systems on a daily basis.

The widespread adoption of Big Data analytics workloads over the past few years has been driven, in part, by the open source model, which has made frameworks, database programs, and other tools available to use and modify for those who want to delve into these big data workloads..

Introducción a Apache Spark

Resource type
Manual

Apache SparkHoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark..

Introducción a Apache Spark

Hoy vamos a hacer una introducción a Apache Spark, el nuevo motor del Big Data, se trata de un framework de computación paralela enfocando especialmente hacia la ciencia de datos.

Hay que destacar que Spark lleva incluidas librerías específicas para tratar datos estructurados (SparkSQL), integración con lenguaje R (Spark R), capacidades para el streaming de datos (Spark Streaming), machine learning (MLib) y computación sobre grafos (GraphX).

Esta primera introducción es una guía para su instalación, conceptos, estructura y el primer contacto que tendremos será la implementación de un Clúster Standalone con PySpark, las aplicaciones se ejecutan como un grupo independiente de procesos en el Cluster, dirigido por el programa principal.