MapReduce | Dataprix

Lee más sobre Consideraciones procesos ETL en entornos Big Data: Caso Hadoop
5 comentarios
Inicie sesión para enviar comentarios

Procesos de ETL En el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas..

Lee más sobre Big Data: Integración SAS y Hadoop
Inicie sesión para enviar comentarios

Big Data con Hadoop y SAS Una de las herramientas más maduras en el mundo Big Data es el framework de licencia libre Apache Hadoop. En este post exponemos de forma resumida la integración entre Hadoop y uno de los fabricantes líder en analítica de negocio: SAS.

En primer lugar resumimos los principales componentes de la arquitectura Hadoop..

Lee más sobre Construyendo un Sistema de Business Intelligence con datos estructurados y no estructurados
Inicie sesión para enviar comentarios

Uno de los puntos que han cambiado la forma en que se hace y hará Business Intelligence es la eclosión de una gran cantidad de datos que anteriormente no se analizaban. Ahora es posible combinar y analizar de forma conjunta, tanto datos estructurados (relacionales, legacy, dbcolumn, etc...) con no estructurados (Hadoop, MapReduce, NoSQL), permitiendo alcanzar cantidades enormes de datos.

Lee más sobre A las Vegas con Apache Hadoop e IBM
1 comentario
Inicie sesión para enviar comentarios

Hola Gente,

quería recomendarles a aquellos interesados por la programación y las nuevas tecnologías relacionadas con el data análisis. En este caso una invitación a participar en un desafío de de programación MapReduce, el premio es un viaje a las Vegas todo pago a la conferencia IOD (Information on Demand) que patrocina IBM.

Aquí están las Bases.

Pero les adelanto que se trata de realizar un curso corto para aprender la tecnología, luego un examen online muy sencillo y luego el challenge.

Enjoy

Saludos

Mariano

Lee más sobre iWay Software implementa el estilo de procesamiento MapReduce en su plataforma Parallel Service Manager
Inicie sesión para enviar comentarios

Way Software ha anunciado hoy la implementación de MapReduce en su plataforma Parallel Service Manager, que ofrece integración de información altamente escalable para un amplio rango de fuentes de información.

MapReduce, muy popular gracias a Google, es un concepto en el que una acción conocida como un “map” es aplicada a cada elemento (item) de una lista. La salida que produce cada “map” puede ser acumulada o modificada en un proceso conocido como “reduce”. Este modelo ayuda a las empresas a gestionar eficazmente la abundancia de datos que existe en las organizaciones, facilitando el cálculo y procesamiento distribuido de grandes conjuntos de datos.

Lee más sobre RHIPE: Utilizar Hadoop para analizar grandes cantidades de datos con R
Inicie sesión para enviar comentarios

Hadoop es el proyecto de Apache que proporciona un entorno que soporta la gestión de grandes cantidades de datos. Este tipo de sistemas se suelen utilizar para soportar la gran cantidad de información que generan las grandes redes sociales, sobretodo cuando las bases de datos relacionales comienzan a presentar problemas de escalabilidad, o el coste del crecimiento es demasiado elevado.

Una buena aplicación de Hadoop la encontramos en el proyecto RHIPE, una interfaz entre Hadoop y R, la herramienta open source de procesamiento estadístico, que permite utilizar Hadoop para soportar de manera eficiente sobre grandes cantidades de datos los análisis estadísticos que se pueden realizar con R..

Suscribirse a MapReduce