Apache Hive

Apache Hive, infraestructura de data warehouse sobre Hadoop

 

Hive es un software que trabaja sobre clusters de Hadoop creando una capa que permite al desarrollador abstraerse de la gestión de ficheros HDFS y MapReduce mediante operaciones de consulta de datos basadas en SQL, con el lenguaje HiveQL.

Editor de consultas SQL de Apache Hive

Con Hive pueden realizarse consultas de no demasiada complejidad, no permite operaciones transaccionales, y al proporcionar un lenguaje similar al SQL de las bases de datos relacionales para trabajar con grandes cantidades de datos este software es muy adecuado para entornos de data warehouse y analítica. Por estas razones se define a Apache Hive como una infraestructura de data warehouse sobre Hadoop.

Hive fue inicialmente desarrollado por Facebook, aunque ha evolucionado como proyecto open source de Apache, dentro del ecosistema de Hadoop, y actualmente lo utilizan grandes compañías como Netflix o Amazon en Amazon Elastic MapReduce o AWS.

Apache Hive se instala como una herramienta más dentro de una instalación de Hadoop y obviamente necesita que los clústeres de Hadoop estén funcionando para poder trabajar sobre ellos.

Se pueden lanzar consultas a Hive tanto directamente desde un entorno de línea de comandos como desde aplicaciones a través de conectores de datos estándar como JDBC o ODBC. Hay que tener en cuenta que la capa de abstracción que proporciona Hive, aunque puede simplificar mucho el desarrollo de aplicaciones basadas en datos, no es tan eficiente como la utilización directa de MapReduce y gestión de ficheros HDFS, ya que el intérprete hace aumentar considerablemente la latencia de las aplicaciones.

 

Otros productos software del fabricante

Apache Hadoop

Arquitectura de apache Hadoop

La librería de software de Hadoop es un framework que permite el procesamiento distribuído de juegos de datos de gran volumen utilizando clusters...

Apache Spark

Apache Spark

Spark es un framework open source de Apache Software Foundation para procesamiento distribuído sobre clusters de ordenadores de grandes cantidades de datos, ideado para su uso...

Noticias en la red


La vulnerabilidad crítica de Apache Log4j pone en riesgo a gran parte de Internet

Apache Software Foundation ha publicado soluciones para contener una vulnerabilidad de día cero explotada activamente que afecta a Apache Log4j. Log4Shell en Apache Log4j«La vulnerabilidad de día cero de Apache Log4j es probablemente la vulnerabilidad más crítica que hemos visto este año«, explica Bharat Jogi del departamento de...


¿Qué es Log4Shell? ¿Por qué es la peor vulnerabilidad informática de la década?

Log4Shell ha sido calificada como la vulnerabilidad más crítica de la última década, no tanto por su complejidad como por el hecho de que el uso de esta librería está tan extendido que es imposible determinar a cuántas entidades afecta. El principal problema y lo que convierte a esta vulnerabilidad en la peor de la década es en lo...


Big Data on Kubernetes: The End For Hadoop?

When data sets are too large and/or too complex for traditional software to deal with, we refer to them as ‘big data.’ Organizations and businesses around the world need to use big data to work on projects that influence the way we live now and in the future. Low expenditure: Hadoop allows organizations to perform big data analytics...