Apache Hive

Apache Hive, infraestructura de data warehouse sobre Hadoop

Hive es un software que trabaja sobre clusters de Hadoop creando una capa que permite al desarrollador abstraerse de la gestión de ficheros HDFS y MapReduce mediante operaciones de consulta de datos basadas en SQL, con el lenguaje HiveQL.

Editor de consultas SQL de Apache Hive

Con Hive pueden realizarse consultas de no demasiada complejidad, no permite operaciones transaccionales, y al proporcionar un lenguaje similar al SQL de las bases de datos relacionales para trabajar con grandes cantidades de datos este software es muy adecuado para entornos de data warehouse y analítica. Por estas razones se define a Apache Hive como una infraestructura de data warehouse sobre Hadoop.

Hive fue inicialmente desarrollado por Facebook, aunque ha evolucionado como proyecto open source de Apache, dentro del ecosistema de Hadoop, y actualmente lo utilizan grandes compañías como Netflix o Amazon en Amazon Elastic MapReduce o AWS.

Apache Hive se instala como una herramienta más dentro de una instalación de Hadoop y obviamente necesita que los clústeres de Hadoop estén funcionando para poder trabajar sobre ellos.

Se pueden lanzar consultas a Hive tanto directamente desde un entorno de línea de comandos como desde aplicaciones a través de conectores de datos estándar como JDBC o ODBC. Hay que tener en cuenta que la capa de abstracción que proporciona Hive, aunque puede simplificar mucho el desarrollo de aplicaciones basadas en datos, no es tan eficiente como la utilización directa de MapReduce y gestión de ficheros HDFS, ya que el intérprete hace aumentar considerablemente la latencia de las aplicaciones.

Log in to post comments

🎓 Formación recomendada por Dataprix

Profundiza en Analítica de Datos con estos cursos en español:

Curso SQL completo → BI y Minería de Datos → Data Analytics + Power BI →

Enlaces de afiliado · Dataprix puede recibir una comisión por tus compras

Empresas especializadas

Suscríbete a nuestro boletín

Software Destacado

Semrush

Semrush reúne en una sola plataforma SaaS todo lo que un equipo de marketing digital necesita para dominar el posicionamiento orgánico, la publicidad de pago y la inteligencia competitiva: más de 55 herramientas integradas, una base de datos de 26.000 millones de palabras clave, 43 billones de backlinks indexados y estimaciones de tráfico para cualquier dominio.
En este análisis evaluamos en profundidad sus módulos clave —Keyword Research, Site Audit…

🟢 DataCamp — Aprende datos e IA en español

600+ cursos interactivos de SQL, Python, Power BI y más. Empieza gratis, certifícate como profesional de datos.

Probar Gratis →

Enlace de afiliado · Dataprix puede recibir una comisión