Apache Hive

 

Apatxe Hive, infraestructura de data warehouse sobre Hadoop

 

 

Hive és un programari que treballa sobre clústers de Hadoop creant una capa que permet al desenvolupador abstreure's de la gestió de fitxers HDFS i MapReduce mitjançant operacions de consulta de dades basades en SQL, amb el llenguatge HiveQL.

Editor de consultas SQL de Apache Hive

Con Hive pueden realizarse consultas de no demasiada complejidad, no permite operaciones transaccionales, y al proporcionar un lenguaje similar al SQL de las bases de datos relacionales para trabajar con grandes cantidades de datos este software es muy adecuado para entornos de data warehouse y analítica. Por estas razones se define a Apache Hive como una infraestructura de data warehouse sobre Hadoop.

Hive fue inicialmente desarrollado por Facebook, aunque ha evolucionado como proyecto open source de Apache, dentro del ecosistema de Hadoop, y actualmente lo utilizan grandes compañías como Netflix o Amazon en Amazon Elastic MapReduce o AWS.

Apache Hive se instala como una herramienta más dentro de una instalación de Hadoop y obviamente necesita que los clústeres de Hadoop estén funcionando para poder trabajar sobre ellos.

Se pueden lanzar consultas a Hive tanto directamente desde un entorno de línea de comandos como desde aplicaciones a través de conectores de datos estándar como JDBC o ODBC. Hay que tener en cuenta que la capa de abstracción que proporciona Hive, aunque puede simplificar mucho el desarrollo de aplicaciones basadas en datos, no es tan eficiente como la utilización directa de MapReduce y gestión de ficheros HDFS, ya que el intérprete hace aumentar considerablemente la latencia de las aplicaciones.