Databricks

Databricks es una plataforma de software basada en la nube para la ingeniería de datos, la ciencia de datos y el aprendizaje automático. Ofrece un entorno escalable para ejecutar aplicaciones de datos de alto rendimiento, y soporte para grandes conjuntos de datos y altos volúmenes de procesamiento de datos.

Databricks machine learning

Las organizaciones la utilizan para crear, ejecutar y gestionar clústeres de Apache Spark en la nube o en las instalaciones. También proporciona herramientas de colaboración, como Jupyter Notebooks y los cuadernos Apache Zeppelin (Apache Zeppelin es una aplicación web de código abierto que permite a los usuarios escribir consultas interactivas de análisis de datos en lenguajes como SQL y Python/Scala/R).

La plataforma ofrece a los usuarios la posibilidad de ejecutar consultas SQL contra tablas Spark SQL y Hive, así como realizar operaciones ETL en Databricks Delta, un servicio de almacenamiento de objetos compatible con Amazon S3 que soporta lecturas y escrituras de alto rendimiento a escala.

La plataforma también permite a los usuarios ejecutar trabajos de Apache Spark en un entorno distribuido con soporte para múltiples lenguajes, incluyendo Scala, Java, Python y R. Los usuarios pueden utilizar Databricks Runtime para Apache Spark para ejecutar sus trabajos en clusters a través de la nube, que puede ser tanto Google Cloud como AWS o Microsoft Azure.

Databricks tiene tres componentes principales: Databricks Unified Analytics Platform (DUAP), Databricks Streaming y Apache Zeppelin. DUAP es una plataforma de datos basada en la nube que proporciona un fácil acceso a Spark y a otras herramientas como MongoDB, Amazon Redshift, Tableau y RStudio. También incluye un cuaderno de análisis interactivo llamado Databricks Notebook, que permite la exploración rápida de datos mediante programas SQL y Scala.

Databricks Streaming permite a los usuarios crear fácilmente flujos en tiempo real desde cualquier fuente hacia Apache Kafka o Apache Flume (o HDFS). Esto significa que, por ejemplo, se pueden enviar datos de sitios web o sensores directamente a un clúster para procesarlos sin tener que preocuparte de mantener varios sistemas sincronizados.

Pago por suscripción / SaaS

Printer-friendly version
Log in to post comments

🎓 Formación recomendada por Dataprix

Profundiza en Analítica de Datos con estos cursos en español:

Curso SQL completo → BI y Minería de Datos → Data Analytics + Power BI →

Enlaces de afiliado · Dataprix puede recibir una comisión por tus compras

Empresas especializadas

Suscríbete a nuestro boletín

Software Destacado

Semrush

Semrush reúne en una sola plataforma SaaS todo lo que un equipo de marketing digital necesita para dominar el posicionamiento orgánico, la publicidad de pago y la inteligencia competitiva: más de 55 herramientas integradas, una base de datos de 26.000 millones de palabras clave, 43 billones de backlinks indexados y estimaciones de tráfico para cualquier dominio.
En este análisis evaluamos en profundidad sus módulos clave —Keyword Research, Site Audit…

🟢 DataCamp — Aprende datos e IA en español

600+ cursos interactivos de SQL, Python, Power BI y más. Empieza gratis, certifícate como profesional de datos.

Probar Gratis →

Enlace de afiliado · Dataprix puede recibir una comisión