7.2 Pentaho Business Intelligence (BI)

7.2 Pentaho Business Intelligence (BI) alfonsocutro 16 Marzo, 2010 - 12:32

Pentaho Business Intelligence (BI) es una iniciativa en curso por la comunidad de Open Source que provee organizaciones con mejores soluciones para las necesidades de Business Intelligence (BI) a las empresa (ver fig. 7.2)

 

 

La plataforma Open Source Pentaho Business Intelligence cubre amplias necesidades de análisis de los datos y de los informes empresariales.

Las soluciones de Pentaho están desarrolladas en Java y tienen un ambiente de implementación también basado en Java. Eso hace que Pentaho es una solución muy flexible para cubrir una amplia gama de necesidades empresariales tanto las típicas como las sofisticadas y específicas del negocio (ver fig.7.3).

Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de análisis e informes integrados con un motor de workflow de procesos de negocio.

La plataforma será capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la información adecuada en el momento adecuado, mediante analisis OLAP, Cuadros de Mando, etc.

 

7.2.1 Arquitectura de Pentaho

7.2.1 Arquitectura de Pentaho alfonsocutro 16 Marzo, 2010 - 12:39

La solución Business Intelligence OpenSource Pentaho pretende ser una alternativa a las soluciones propietarias tradicionales más completas: Business Objects, Cognos, Microstrategy, Microsoft, IBM, etc., por lo que incluye todos aquellos componentes que se pueden encontrar en las soluciones Business Intelligence (BI) propietarias más avanzadas:

  • Reporting.

  • Análisis.

  • Dashboards.

  • Workflow.

  • Data Mining.

  • ETL.

  • Single Sign-On. Ldap.

  • Auditoría de uso y rendimiento.

  • Planificador.

  • Notificador.

  • Seguridad. Perfiles.

La fig. 7.4 permite visualizar la arquitectura estructurada de las diferentes componentes que forman parte de Pentaho.

 

7.2.2 Componentes del Pentaho

7.2.2 Componentes del Pentaho alfonsocutro 16 Marzo, 2010 - 12:45

Business Intelligence Pentaho es una solución realizada en Java de código abierto flexible y muy potente que cubre prácticamente todas las necesidadesde una empresa.

Como la misma fue creada con el 100% J2EE, asegurando de esta forma la escalabilidad, integración y portabilidad.
 

Componentes Soportados

Servidor: Pentaho puede correr en servidores compatibles con J2EE como JBOSS AS, IBM WebSphere, Tomcat, WebLogic y Oracle AS.

Base de datos: Vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird.

Sistema operativo: No existe dependencia; lenguaje interpretado.

Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT / XPath / XSL-FO).

Interfaz de desarrollo: Java SWT, Eclipse, Web-based.

Todos los componentes están expuestos vía Web Services para facilitar la integración con Arquitecturas Orientadas a Servicios (SOA) .

También todos los repositorios de datos del Business Intelligence Pentaho están basados en XML.

La fig. 7.5 visualiza la interacción entre los diferentes componentes de Pentaho.

 

7.2.3 Características de Pentaho

7.2.3 Características de Pentaho alfonsocutro 16 Marzo, 2010 - 13:04

Pentaho Business Intelligence abarca las siguientes aéreas de reporte:
 

Pentaho Reporting

La solución proporcionada por la plataforma Business Intelligence OpenSource Pentaho e integrada en su suite para el desarrollo de informes se llama Pentaho Reporting (ver fig. 7.6).

 

 

Existen tres productos con diferentes enfoques y dirigidos a diferentes tipos de usuarios:
 

  • Pentaho Report Designer

Es un editor basado en Eclipse con prestaciones profesionales con capacidad de personalización de informes a las necesidades de los negocios destinado a desarrolladores.

Esta herramienta está estructurada de forma que los desarrolladores puedan acceder a sus prestaciones de forma rápida.

Incluye un editor de consultas para facilitar la confección de los datos que serán utilizados en un informe.

  • Pentaho Report Design Wizard

Es una herramienta de diseño de informes, que facilita el trabajo y permite a los usuarios obtener resultados de forma inmediata. Está destinada a usuarios con menos conocimientos técnicos.

  • Web ad-hoc reporting

Es el similar a la herramienta Pentaho Report Design Wizard, pero via web.

Esta herramienta extiende la capacidad de los usuarios finales para la creación de informes a partir de plantillas preconfiguradas y siguiendo un asistente de creación.

La fig. 7.7 permite visualizar los distintos tipos de reportes desarrollados con cualquiera de las harramientas de Pentaho Reporting.

 

 

Pentaho Análisis

Ayuda a operar con máxima efectividad para ganar perspicacia y entender lo necesario para tomar optimas decisiones.
 

Las características generales son:

  • Vista dimensional de datos (por ventas, por período, por empleados, etc.).
     
  • Navegar y explorar (Análisis Ad Hoc, Drill-down, etc.).
     
  • Interactuar con alto rendimiento mediante tecnologías optimizadas para la rápida respuesta interactiva.

La fig. 7.8 y la fig. 7.9 nos permite visualizar las distintas formas de análisis e interpretación de los datos que posee el Pentaho Análisis.

 

Figura 7.8: Visualización de los diferentes paneles de analisis con el Pentaho Análisis.

 

Figura 7.9: Pentaho Análisis permitira a el ususario final realizar diferentes

analisis de las variables o de los campos de la bases de datos de estudio.

 

Pentaho Dashboards

Esta solución provee inmediata perspicacia en un rendimiento individual, departamental o empresarial. Pentaho Dashboards facilita a los usuarios de los negocios información crítica que necesitan para entender y mejorar el rendimiento organizacional.

El Pentaho Dashboards es una potente herramienta que cuenta con las siguientes características:

  • Identificación de métricas clave (KPIs, Key Performance Indicators), mediante la generación de Monitoreo/Métricas.
     
  • Realización de investigaciones de detalles subyacentes, con reportes de soportes.
     
  • Ejecución de seguimientos de excepciones, permitiendo pre-establecer alertas basadas en reglas del negocio.

Como se puede apreciar en la fig. 7.10, se ovservan todas las características antes mencionadas.

 

Figura 7.10: El Pentaho Dashboards es una potente herramienta que permite 

                                                           la incorporación de múltiples tipos de gráficos, tablas y velocímetros a un

                                                           determinado proyecto de Business Intelligence.

 

Pentaho Data Integration

Los datos que alimentan a un sistema data warehouse (DW) proviene de diferentes fuentes, estas fuentes son los distintos sistemas operacionales que la empresa posee, generalmente ni son homogéneos entre sí ni concuerdan exactamen con lo que se necesita, por lo que será necesario realizar todas las adaptaciones pertinentes.

También muchas organizaciones tienen información disponible en aplicaciones y base de datos separadas.

Pentaho Data Integration abre, limpia e integra esta valiosa información y la pone en manos del usuario. Provee una consistencia, una sola versión de todos los recursos de información, que es uno de los más grandes desafíos para las organizaciones TI hoy en día.

Pentaho Data Integration permite una poderosa ETL (Extract, Transform, Load) Extracción, Transformación y Carga.

El uso de la solución Kettle permite evitar grandes cargas de trabajo manual frecuentemente difícil de mantener y de desplegar.

La arquitectura de Pentaho Data Integration viene representada por el esquema de la fig. 7.11.

 

Figura 7.11: Visualización del esquema de Pentaho Data Integration.

Data Mining

La plataforma Business Intelligence OpenSource Pentaho ofrece diferentes soluciones para el desarrollo de un proyecto de Business Intelligence.

En este caso se hará referencia a la solución integrada al paquete Business Intelligence Pentaho para el desarrollo de proyectos de Data Mining.

El Weka (Waikato Enviroment for Knowledge Analysis) es un conjunto de librerías JAVA para la extracción de conocimientos desde bases de datos (ver fig. 7.12).

 

Figura 7.12: Weka (Waikato Enviroment for Knowledge Analysis)

 

http://www.cs.waikato.ac.nz.

 

 

Es un software que ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años.

 

Características Generales del Weka Esta herramienta Open Source incluye las siguientes características:
 

  • Diversas fuentes de datos (ASCII, JDBC).
     
  •  Interfaz visual basada en procesos / flujos de datos (rutas).
     
  • Distintas herramientas de minería de datos:

— Reglas de asociación (a priori, Tertius, etc.).

— Agrupación / segmentación / conglomerado (cobweb, EM y k-medias).

— Clasificación (redes neuronales, reglas y árboles de decisión, aprendizaje bayesiano).

— Regresión (regresión lineal, SVM, etc.).

— Manipulación de datos (pick & mix, muestreo, combinación, separación, etc.).

— Combinación de modelos (bagging, boosting, etc.).

— Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (T-test).
 

Entorno de Trabajo del Weka En la fig. 7.13  se visualizará el ambiente de trabajo del weka y posteriormente se podrá analizar en detalle cada entornos de trabajo que esta potente herramienta onpen source posee.

 

Figura 7.13: Visualización de la ventana principal del Weka.
 

Como se puede ver en la parte inferior de la fig. 7.13, Weka define cuatro entornos de trabajo diferentes.

Estos entornos son los siguientes:

  • Simple CLI : Es un entorno consola que permite la invocación directa mediante Java a todos los paquetes de weka.
     
  • Explorer : Es un entorno visual que ofrece una interfaz gráfica para el uso de los paquetes de weka.
     
  • Experimenter : Entorno centrado en la automatización de tareas de manera que se facilite la realización de experimentos a gran escala.
     
  • KnowledgeFlow: Permite generar proyectos de minería de datos mediante la generación de flujos de información o workflow.

En este apartado se tratará únicamente el entorno Explorer, ya que permite el acceso a la mayoría de las funcionalidades integradas en Weka de una manera más sencilla.

La siguiente imagen permiten visualizar el entorno de trabajo que posee Explorer (ver fig. 7.14).

 

Figura 7.14: Visualización de la ventana del Explorador.
 

Como se puede observar en la fig. 7.14, existen seis subentornos de ejecución:

  • Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos.
     
  • Classification: Acceso a las técnicas de clasificación y regresión.
     
  • Cluster: Integra varios métodos de agrupamiento.
     
  • Associate: Incluye una pocas técnicas de reglas de asociación.
     
  • Select Attributes: Permite aplicar diversas técnicas para la reducción del número de atributos.
     
  • Visualice: En este apartado podemos estudiar el comportamiento de los datos mediante técnicas de visualización.