Manual de BI - Conceptos
Manual de BI - Conceptos
Resumen:
Actualmente muchas empresas ya sean grandes o pequeas, se plantean implantar en su organizacin un sistema de informacin que les ayude en la toma de decisiones. Una de las tendencias actuales es implantar un sistema de BI (Business Intelligence). Muchas organizaciones implantan este tipo de sistemas sin haber realizado un estudio previo de las necesidades y problemas de la empresa, de los beneficios que se pretenden obtener con la implantacin del sistema, de la aceptacin y formacin de los usuarios, de las herramientas y proveedores de BI,... y as un largo etctera de situaciones y condiciones que se deberan tener en cuenta para la implantacin de esta clase de sistemas en cualquier tipo de organizacin, ya sea grande o pequea. En el presente artculo se realiza una sntesis de la amalgama de informacin existente en los sistemas de BI, se realiza una definicin aclaratoria, as como tambin se expone su estado actual, beneficios, factores de riesgo, pasos para conseguir una implantacin exitosa y los componentes y herramientas open source de los sistemas de BI. Primero se exponen las principales herramientas open source existentes en el mercado y se profundiza ms especialmente en la Suite open source de BI Pentaho. Palabras clave: Business Intelligence, Open Source, Pentaho, Factores de xito, OLAP, ETL, Data warehouse, Data mining, Cuadros de mando, Reporting
1. Introduccin
En la actualidad la mayora de las organizaciones disponen de sistemas de informacin para realizar el tratamiento de sus datos. Estos sistemas pueden ser ms o menos complejos o ms o menos econmicos dependiendo de las necesidades particulares de cada negocio. Con el paso del tiempo la informacin almacenada en estos sistemas de informacin constituyen la historia y el presente del negocio. Ahora bien, Por qu no utilizamos estos datos para tomar mejores decisiones que nos lleven a un aumento de beneficios del negocio? Por qu no utilizar estos datos de forma predictiva para ayudarnos a tomar mejores decisiones? [11] Y si utilizamos esta informacin como herramienta de marketing? Cmo puedo tomar ventaja sobre mi competencia? Estas y otras cuestiones similares pueden ser respondidas mediante la implantacin de sistemas de BI (Business Intelligence). [4] Hay que tener en cuenta que el coste de implantacin de un sistema BI puede llegar a ser bastante elevado, tanto a nivel econmico como a nivel temporal y de organizacin.
Para conseguir una exitosa implantacin de un sistema BI se debe tener en consideracin diversos factores que se tratarn posteriormente y tener una gran capacidad de adaptabilidad de criterios, para que la implantacin coincida con el tipo de negocio de la empresa. Existen organizaciones que gracias al BI han conseguido un notable ahorro de costes y aumento de beneficios, pero en otras organizaciones debido a malas decisiones y un errneo conocimiento de la empresa, los gastos de implantacin han sido superiores a los beneficios obtenidos.[4] Este panorama llevaba a que las empresas pequeas y medianas (PYMES) [1] no adoptasen soluciones de BI, pero actualmente este paradigma est cambiando gracias a la aparicin de herramientas BI Open Source [3], que les proporcionan costes de implantacin ms reducidos y procedimientos adaptados a estndares abiertos, lo que asegura la continuidad y validez de las soluciones aportadas. El coste de la implantacin de sistemas de BI ha disminuido en los ltimos aos debido a la cada de precios de los sistemas de almacenamiento de datos. Otros factores a tener en cuenta en la reduccin de costes es que los sistemas de Data Warehouse son menos complejos de implantar en una organizacin; y que cada vez ms se est implantando el BI en el cloud [10][11], ofreciendo el BI como un servicio, lo que implica un gran ahorro en infraestructuras hardware. BI se define como la habilidad para tomar decisiones, esto se logra mediante procesos que hacen uso de metodologas, tecnologas y aplicaciones que permiten el tratamiento y la depuracin de datos de diferentes fuentes y aplicar en ellos tcnicas analticas de extraccin de conocimiento[1]. Gracias a los sistemas BI se pueden transformar los datos de la compaa en conocimiento para obtener una ventaja competitiva. En la siguiente figura se muestra el modelo integral de una solucin BI.
El principal objetivo del presente artculo es realizar un estudio acerca del estado del arte de los sistemas de BI, el grado de aceptacin y de xito que tiene en las diferentes organizaciones y cuales son los beneficios que puede aportar la implantacin de estos sistemas a una organizacin. Para ello se sintetiza y expone de forma ordenada los conceptos anteriormente nombrados y se organiza la multitud de herramientas y componentes que forman estos sistemas, centrndose especialmente en aquellos que son open source. El artculo est estructurado de la siguiente forma, en el apartado 2 se exponen los beneficios que puede aportar una implantacin exitosa de un sistema BI; en el apartado 3 se tratan los factores crticos y los pasos a seguir para conseguir una implantacin exitosa; en el apartado 4 se estructuran los componentes de un sistema BI en los que posteriormente se clasificarn las herramientas BI de open source (BBDD, ETL, OLAP, Data Warehouse, Data Mining, Reporting, Cuadros de mando,...) del apartado 5; en el apartado 6 se introduce el concepto de BI en Internet; en el apartado 7 se expone el estado actual de los sistemas BI open source; en el apartado 8 se profundiza en las caractersticas de la principal herramienta open source del mercado, Pentaho; en el apartado 9 se exponen las tendencias de los sistemas BI y su futuro, y por ltimo se realizan las conclusiones del presente estudio.
2. Beneficios de la implantacin de BI
Los primeros sistemas de informacin a la direccin aportaban bsicamente informacin econmica y financiera, con lo que quedaban muchas lagunas por cubrir respecto a la organizacin de la empresa. Los nuevos sistemas de BI abarcan todas las reas funcionales de una organizacin (recursos humanos, marketing, logstica,...) y no slo los econmicos [17][19]. Los beneficios que pueden aportar la implantacin de sistemas BI son: incremento de la eficiencia en la toma de decisiones, mejora de comunicacin entre las diferentes reas de la organizacin, mejora de rentabilidad, atraccin de nuevos clientes, retencin de los clientes actuales, prediccin de ventas, reduccin del fraude, identificacin de riesgos, presentacin de soluciones basadas en el conocimiento del negocio, Las empresas que tienen una pgina web deben plantearse si su pgina presenta la suficiente inteligencia para que la oferta de sus productos y servicios se convierta en una venta. Para conseguir este hecho se pueden adoptar tcnicas de BI que nos permitan obtener informacin acerca de las preferencias de los usuarios del sitio web, tanto para aumentar la rentabilidad del negocio como para focalizar los esfuerzos de mantenimiento y futuro crecimiento.[1] Aprovechando el anlisis predictivo de las plataformas BI las empresas pueden atraer a nuevos clientes, ofreciendo productos de una forma que resulte atractiva. Adems tambin se pueden tomar decisiones proactivas para evitar la prdida de clientes descontentos. Los sistemas BI tambin pueden valorar a los clientes para enfocar los mayores esfuerzos de retencin, ya que generalmente cuesta menos mantener un cliente que captar uno nuevo. Las herramientas BI ofrecen la posibilidad de analizar las transacciones con una mayor probabilidad de fraude, para, as si es posible, poder evitarlas. Tambin son capaces de detectar patrones de riesgos, de esta forma se pueden mejorar los procesos y evitar riesgos. La mayor parte de los beneficios de la implantacin de un sistema de BI son intangibles, ya que derivan en la mejora de la gestin de la compaa. Esto dificulta la tarea de calcular su ROI (Return On Investment) para obtener beneficios cuantificables. Gracias a la implantacin de un sistema de BI, se evidencia una reduccin de costes al aumentar el rendimiento de la infraestructura TIC de la organizacin y un incremento de la productividad de los empleados debido a la disponibilidad de informacin y la
calidad de sta. Pero como se ha comentado anteriormente este tipo de parmetros son difcilmente cuantificables desde una perspectiva econmica-financiera [18]. En la siguiente figura se representa el espectro de los beneficios que se pueden obtener en una implantacin de un sistema BI.
3. Factores de xito
La implantacin de un sistema de BI en una organizacin es un proceso muy complejo y requiere grandes cantidades de recursos. A pesar del gran esfuerzo de las organizaciones en la implantacin de este tipo de sistemas, no se asegura que se vayan a obtener beneficios [2]. En recientes estudios se ha revelado que las compaas que identifican un juego de factores crticos de xito (CSFs) tienen una mayor probabilidad de xito y obtienen mejores resultados que las compaas que no identifican dichos factores [7]. Por lo tanto una de las metas de las compaas a la hora de enfrentarse a la implantacin de un sistema BI, es la definicin de unas mtricas [5] que les ayuden en la toma de decisiones. Las compaas que afrontan este proceso con un mayor xito desarrollan sistemas predictivos mediante la correcta identificacin de KPIs (Key Perfonmance Indicators) que se utilizarn en los cuadros de mando. Las empresas que han tenido xito en su implantacin demuestran que el xito no se basa fundamentalmente en la inversin tecnolgica, sino que se basa ms en conocer la infraestructura del negocio, el equipo humano y la poltica de negocio para poder establecer as los mejores CSFs posibles [7]. Algunos de los CSFs que influyen en el xito de las soluciones BI son [5][7]: Organizacin: se debe alinear el BI con los objetivos estratgicos del negocio. El equipo de IT y el de negocio deben estar coordinados y trabajar bajo un fin comn. Procesos: se deben definir procesos bien estructurados que afecten al equipo, a la metodologa y a la direccin del negocio. Tecnologa: es necesario remarcar que no todas las herramientas y aplicaciones BI valen para todo ni para todos los usuarios, se deben analizar los diferentes tipos de usuarios y asignar las herramientas y estrategias adecuadas para sus necesidades. Adems la infraestructura de un sistema BI debe ser flexible y escalable, se debe poder tratar con diferentes fuentes de informacin y trabajar conjuntamente con distintos tipos de herramientas. A continuacin se identifican cinco pasos que deben seguir las organizaciones para obtener una implantacin exitosa de un sistema de BI. Estos pasos cubren reas que ayudan a identificar los CSFs antes de implementar una solucin de BI [13].
1. Identificar el problema: Lo primero que debe realizar una organizacin es identificar el problema para saber como abordarlo. La solucin de BI debe corresponderse con el problema identificado. No se debe implantar una solucin de BI para alcanzar un objetivo de TI, el sistema de BI no debe perder de vista las necesidades reales de la organizacin y para ello los requisitos de los usuarios deben formar parte en la identificacin del problema. 2. Determinar expectativas respecto al uso: Cuantificar correctamente el nmero de usuarios y consultas que va a tener un sistema de BI es un factor primordial en la solucin implantada. Un nmero de usuarios y consultas estimados inferior al real, puede llevar a retrasos y fallos en el sistema que producirn una prdida de confianza en el sistema de BI implantado. Adems hay que elegir correctamente el tipo de herramienta dirigida a cada usuario para sacar el mximo provecho de la informacin disponible. 3. Comprender la entrega de datos: La correcta identificacin de la informacin es la base del sistema de BI, por lo tanto como se va a proporcionar est informacin es algo que no puede tomarse a la ligera. Se debe identificar si los datos sern entregados por lotes o en tiempo real, qu tipo de sistemas de limpieza se aplicarn a los datos, por lo que las herramientas ETL (Extraccin - Transformacin y Carga) tienen un papel de vital importancia en la solucin de BI. 4. Implementar las iniciativas de capacitacin: La capacitacin a los empleados debe realizarse durante o antes de la fase de implantacin, no debe realizarse en una fase demasiado temprana, ya que la dilatacin en el tiempo llevara a la desmotivacin y falta de inters de los futuros usuarios. 5. Seleccionar un tipo de solucin: Las organizaciones que deban seguir unos reglamentos y normas pueden aprovechar las soluciones verticales de BI que cumplen con los requisitos especficos de su normativa. Las soluciones horizontales son ms verstiles y se pueden adaptar ms al funcionamiento especfico de la empresa, pero esto implica una mayor inversin econmica y temporal.
Las fuentes de informacin en un sistema de BI, sirven para alimentar el Data Warehouse. La informacin se suele obtener de: sistemas operacionales y transaccionales, que incluyen aplicaciones desarrolladas a medida para la organizacin
(ERP, CRM, SCM, ...); sistemas de informacin departamentales (presupuestos, hojas de clculo, previsiones,...) y fuentes de informacin externa (estudios de mercado, estadsticas,...). Se debe remarcar que este tipo de informacin est estructurada, pero que cada vez ms, gracias al avance tecnolgico, se puede incorporar al sistema, informacin semiestructurada o desestructurada (imgenes, vdeos, correos electrnicos,...) ya que este tipo de informacin posee un gran valor para tenerla en cuenta en el modelo de negocio de la empresa. La calidad de los datos con la que se alimentar al Data Warehouse debe ser la mxima posible, ya que si en el Data Warehouse hay errores, stos se propagarn por toda la organizacin y sern muy difciles de localizar. El proceso de extraccin, transformacin y carga (ETL) trata de recuperar los datos de las diferentes fuentes de informacin para alimentar el Data Warehouse. Este proceso consume la mayor parte del tiempo en un sistema de BI, por lo que se trata de un proceso de vital importancia dentro del sistema. El proceso ETL se divide en 5 subprocesos: Extraccin de los datos en bruto de las diferentes fuentes de informacin; Limpieza de los datos al eliminar duplicados y valores errneos para obtener los datos limpios y de alta calidad; Transformacin de los datos limpios en datos consistentes para el anlisis; Integracin de los datos en las definiciones del Data Warehouse y Actualizacin de los datos peridicamente en el Data Warehouse. El Data Warehouse o almacn de datos proporciona informacin consistente, integrada, preparada e histrica lista para ser analizada en un sistema BI y utilizarla en la toma de decisiones de una organizacin. Al almacenar informacin histrica el data warehouse puede proporcionar informacin relativa a la evolucin de ventas en un determinado periodo. La construccin y el diseo de un data warehouse lleva tiempo y dinero, lo que conlleva que muchas organizaciones no acepten esta situacin. Para asimilar con mayor facilidad el cambio, aparecen los Data Marts que almacenan informacin de una o un nmero limitado de reas (marketing, produccin, ventas,...). Los Data Marts son ms pequeos que los Data Warehouse, almacenan menos informacin y dan soporte a un menor nmero de usuarios. Los Data Marts pueden ser independientes del Data Warehouse corporativo y obtener la informacin directamente de las fuentes de datos, o ser dependientes del Data Warehouse corporativo y as evitar posibles inconsistencias en la informacin. En la siguiente figura se visualiza una representacin de los dos tipos de Data Marts indicados.
Las Herramientas de BI para la explotacin de la informacin permiten tratar y visualizar la informacin que se almacena en el Data Warehouse. Estas herramientas son: OLAP (On-Line Analytical Procesing): Son herramientas que permiten realizar consultas complejas a las bases de datos, proporcionando un acceso multidimensional a los datos (cubos multidimensionales), indexacin especializada y capacidades intensivas de clculo. El servidor OLAP almacena los datos multidimensionales precalculados para que la explotacin de los datos por parte del cliente sea ms rpida.
Query & Reporting: son herramientas para la realizacin de consultas y la elaboracin de informes. Estas herramientas extraen la informacin del Data Warehouse o de los Data Marts de la organizacin. Pueden ser desarrolladas a medida o no. Cuadros de mando: existen dos tipos, los Cuadros de mando analticos o Dashboard que permiten obtener, a partir de los Data Marts, la elaboracin de informes e indicadores clave (KPI). Son operativos o tcticos y analizan reas de negocio no relacionadas entre si. Los Cuadros de mando integrales o Balanced Scorecard se desarrollan a nivel estratgico de toda la organizacin, as los diferentes niveles de gestin y direccin de la organizacin disponen de una visin estratgica con un conjunto de objetivos e indicadores que abarcan a toda la organizacin. Data Mining: Son herramientas que a partir de la informacin disponible descubren patrones ocultos, tendencias,... y presentan esta informacin de forma sencilla a los usuarios. El data mining utiliza tecnologa basada en redes neuronales, rboles de decisin,... y sus usos ms comunes son la segmentacin, ventas cruzadas, previsiones, optimizaciones,...
Se puede considerar a los Usuarios como componentes del sistema de BI. Bsicamente existen dos tipos de usuarios: los usuarios productores de informacin y los usuarios consumidores de informacin. En la siguiente figura se representan ambos tipos de usuarios y su clasificacin dentro de la organizacin.
De las bases de datos anteriormente nombradas las ms conocidas y utilizadas son MySQL y PostgreSQL1. MySQL2 se utiliza mpliamente en aplicaciones web, es rpida, posee herramientas grficas para mantenimiento y administracin y ofrece un buen soporte en sus versiones de pago (aunque desde que ha sido adquirida por Oracle el coste de estas licencias ha aumentado considerablemente). PostgreSQL es una base de datos robusta y dispone de todas las caractersticas necesarias para ser considerada una buena base de datos empresarial. Como desventaja podemos citar que su rapidez es menor que la versin no transaccional de MySQL. ETL (Extraction, Transformation, Load) Un sistema ETL realiza funciones de extraccin de la fuente de datos (bases de datos transaccionales o externas), transformacin de los datos y la carga de los mismos en un Data Warehouse. Estas herramientas se encargan de tomar la informacin de diferentes fuentes y realizar su carga en el almacn de datos. En las herramientas ETL tenemos que considerar qu fuentes de datos y qu herramientas soportan. Se debe tener en cuenta si la herramienta se utiliza para realizar la carga en bases de datos relacionales (ROLAP Relational OLAP), multidimensionales (MOLAP Multidimensional OLAP) o ambas (HOLAP Hybrid OLAP) [6]. Tambin hay que tener en cuenta el soporte que ofrecen estas herramientas y si ofrecen una interfaz grfica, o si por el contrario se debe aprender un lenguaje especfico para poder manejarlas. Algunos ejemplos de herramientas ETL Open Source son: Kettle (Pentaho Data Integration), JasperETL, Palo ETL, Bee y Octopus. Kettle es la herramienta ETL que utiliza la Suite Pentaho, hace uso de la interfaz grfica Spoon para disear los trabajos de transformacin de datos. Kettle utiliza dos herramientas para realizar la transformacin de los datos: PAN (motor de transformacin, permite lectura y escritura sobre diferentes fuentes de datos) y KITCHEN (permite la ejecucin de trabajos de forma planificada). JasperETL (Talend ETL) es la herramienta ETL disponible en la Suite JasperSoft, es una herramienta independiente de JasperSoft y esta desarrollada en Java/Perl. Est orientada a usuarios con conocimientos de lenguajes de programacin, lo que hace que sea una herramienta muy flexible aunque su curva de aprendizaje sea ms larga. Palo ETL es una herramienta completamente integrada en la Suite PALO, no existe un desarrollo independiente de esta herramienta. Es una herramienta muy intuitiva y con una baja curva de aprendizaje. Bee es una suite que contiene una herramienta ETL, un servidor OLAP y un cliente OLAP con interfaz web. Su herramienta ETL trabaja con bases de datos relacionales (ROLAP). Posee una interfaz grfica de usuario y el proceso de transformacin se encuentra descrito en un fichero XML. Octopus es una herramienta ETL basada en Java y que se puede conectar a las fuentes de datos relacionales (ROLAP) mediante JDBC. La transformacin se encuentra en un archivo XML. Permite interoperar simultneamente a varias bases de datos (MSSQL, Oracle, DB2, QED, Excel, Access, MySQL, CSV-files, XML-files). Se pueden incorporar valores por defecto en la carga de datos o inclusos implementar transformaciones de datos mediante Java o JavaScript. Data Warehouse Data Warehouse es el proceso de extraer datos de diferentes aplicaciones, ya sean internas o externas, despus depurarlos y estructurarlos para que sean guardados en un
1 2
http://www.postgresql.org/ http://www.mysql.com/
almacn de datos. Este almacn de datos ser utilizado posteriormente para el anlisis BI. Todo este proceso requiere de una gran infraestructura hardware y software para llevar a cabo la transformacin de los datos, aunque ltimamente han aparecido en el mercado algunos sistemas que permiten automatizar, y por tanto facilitar, gran parte del proceso. [11]. El Data Warehouse es una gran base de datos corporativa que almacena los datos extrados a partir de diferentes fuentes, la informacin almacenada se utilizar posteriormente en las consultas e informes. La informacin se almacena en el Data Warehouse en diferentes periodos de tiempo, adems cabe resaltar que esta informacin no se modifica como en los sistemas transaccionales, sino que se incrementa. El metadata en el Data Warehouse es el lugar dnde se define la estructura que tendr el propio Data Warehore. En el metadata se definen las tablas y sus atributos, lo que implica que a nivel empresarial se deben definir el modelo de negocio y la informacin que se desea extraer del mismo [15]. OLAP (On-Line Analitical Processing) El procesamiento analtico en lnea [1] [6] permite obtener acceso a datos organizados, organiza subconjuntos de datos en una estructura multidimensional que pueda responder a las preguntas especficas de un negocio. Es decir, se basa en el anlisis multidimensional (anlisis del hipercubo) de los datos y permite al usuario tener una visin ms rpida e interactiva de los mismos. Este tipo de sistemas son muy utilizados en las reas de marketing de las empresas, ya que pueden responder a preguntas complejas en un corto espacio de tiempo. Tambin se utilizan estos tipos de sistemas para generar ndices que mejoran los tiempos de accesos a las consultas. Segn el tipo de base de datos en la que almacenan los datos podemos clasificar estos sistemas en: ROLAP, que almacena los datos en una base de datos de tipo relacional; MOLAP, que almacena los datos en una base de datos de tipo multidimensional y HOLAP, que es un sistema hbrido que combina los dos sistemas anteriores. Existen tanto servidores como clientes OLAP, para elegir uno se tienen que tener en cuenta diferentes factores: En los servidores OLAP, lo primero que debemos tener en cuenta es si son ROLAP, MOLAP o HOLAP [6], tambin debemos tener en cuenta si son capaces de manejar grandes conjuntos de datos y si son independientes de la base de datos o deben trabajar especficamente con una. Otros factores que tambin debemos considerar en un servidor OLAP es la API que utiliza y el tipo de lenguaje de consulta que soporta. El cliente OLAP debe ser compatible con el servidor OLAP utilizado, la API utilizada, los informes predefinidos que soporta y en que formato pueden ser exportados. Algunos de los servidores OLAP Open Source existentes son: Mondrian, Palo y Bee. Mondrian es un servidor OLAP desarrollado en Java orientado a ROLAP. Puede ser utilizado por cualquier motor de base de datos que tenga un driver JDBC. Utiliza MDX1 (MultiDimensional eXpressions) como lenguaje de consulta. Presenta los datos en un formato multidimensional a travs de un API de Java. Bee posee un servidor OLAP orientado a ROLAP dentro de su suite. Utiliza MySQL como base de datos y puede manejar hasta 50GB de forma eficiente. Palo es un servidor OLAP orientado a MOLAP que soporta hasta 256 dimensiones con jerarquas dentro de cada dimensin.
1
Algunos de los clientes OLAP Open Source existentes son [6]: Bee y Jpivot. Bee posee tambin un cliente OLAP, el cliente es un cliente web y se debe utilizar con el servidor OLAP Bee. Puede generar diferentes tipos de grficos tanto en 2D como en 3D y los resultados se pueden exportar a Excel, PDF, PNG, PowerPoint, Text y XML. Jpivot es un cliente web OLAP que trabaja con el servidor Mondrian. Como Modrian utiliza MDX como lenguaje de consulta. Genera grficos tanto en 2D como en 3D pero solamente exporta los datos a PDF y Excel. Reporting Son los componentes de un sistema BI que se encargan de generar los informes, debemos tener en cuenta que estos informes sean presentados en formatos estndar para mantener al mximo la compatibilidad con otras aplicaciones. Algunos generadores de informes BI Open Source son: Pentaho Reporting (JfreeReports) , Jasper Report, y Eclipse Birt. Pentaho Reporting es el generador de informes incluido en la suite Pentaho. Se pueden generar informes tanto a nivel de cliente utilizando el asistente o el diseador de informes o tambin se pueden generar los informes a travs de la web . Jasper Reports es un generador de informes desarrollado en Java, los informes se pueden entregar en los formatos PDF, XML, HTML y CSV . Eclipse Birt es un generador de informes basado en Eclipse, genera informes en formato XML. Puede ser embebida en proyectos J2EE. Cuadros de Mando (Dashboards/Scorecard) Un cuadro de mando es una herramienta que permite alinear los objetivos de las diferentes reas con la estrategia de la organizacin y seguir su evolucin. El uso que se le puede dar a un cuadro de mando es muy variado, puede ir desde evaluaciones de personal, acciones de formacin, plan de negocio,... En un cuadro de mando se transcribe la estrategia de la empresa en indicadores de rendimiento (KPI Key Performance Indicators) [3]. Se utilizan para hacer evolucionar la estrategia de la empresa, gestionar el rendimiento y medir el impacto de las iniciativas relacionadas con la optimizacin de los mtodos. Algunos de los programas para diseo de cuadros de mando que podemos encontrar son: Pentaho Dashboard Designer, Jasper, Birt y Palo. Como se puede observar la mayora de los cuadros de mando estn integrados en suites de BI Open Source. Otras herramientas de cuadros de mando independientes de las suites open source son: JetSpeed, Jboss Portal y Marvelit. Data Mining La minera de datos consiste en seleccionar, explorar, modificar y modelar grandes cantidades de datos para poder analizarlos, este proceso debe ser automtico o semiautomtico. Se utiliza en todo tipo de sistemas desde en la emisin de tarjetas de crdito hasta en biologa pasando por la web semntica. Las herramientas de anlisis en BI son un punto crtico dentro del proceso, ya que un mal anlisis puede llevar al fracaso de un negocio. Weka es una herramienta Open Source de Data Mining realizada en Java. Tiene una gran cantidad de algoritmos implementados, pero su punto fuerte es la posibilidad de ser adaptado a cualquier entorno. Es un sistema multiplataforma y est integrado dentro de la suite ofimtica Pentaho.
Suites BI Muchas de las herramientas anteriormente comentadas se encuentran incluidas dentro de plataformas de BI. Tradicionalmente las plataformas de BI no eran de Open Source y estaban enfocadas principalmente a grandes empresas, ya que estas eran las nicas que tenan la capacidad, infraestructura y presupuesto necesario para llevar a cabo una implantacin de BI. Algunas de las plataformas de BI comerciales ms conocidas son [11]: MicroStrategy, TIBCO, IBM's Business Intelligent y Microsoft Business Intelligence Platform. Con el tiempo han ido apareciendo soluciones integradas de BI Open Source cada vez ms competitivas. Algunas de las soluciones de BI Open Source existentes en el mercado son: Pentaho, Jasper, Birt y Palo. Pentaho ofrece una plataforma completa de herramientas BI Open Source. Estas herramientas son: reportes, anlisis OLAP, dashboards, integracin de datos y minera de datos. Actualmente es la plataforma BI Open Source ms utilizada [1][2][8][9][10]. Pentaho elimina el coste de la licencia de software y obtiene beneficios a travs del pago de una licencia anual que incluye soporte, servicios y una optimizacin del servicio. Esta plataforma la utilizan desde las pequeas empresas hasta las multinacionales. Su tecnologa soporta anlisis de rentabilidad, anlisis de clientes, reportes financieros, herramientas KPI, reportes operacionales, Los proyectos Open Source incluidos en la plataforma Pentaho son: Kettle (ETL Open Source), Mondrian (Servidor OLAP Open Source), Jpivot (Cliente OLAP Open Source), Weka (Data Mining Open Source), Pentaho Reporting Engine (Generador de Informes Open Source) y Pentaho (Suite BI completa). Jasper es la principal competidora de software BI Open Source de Pentaho, en su suite incluye tambin una gama de herramientas que constituyen una plataforma BI completa [1][2][8]. Estas herramientas son: JasperETL (ETL Open Source), Mondrian (Servidor OLAP Open Source), Jpivot (Cliente OLAP Open Source), Jasper Reports (Generador de Informes Open Source) y Jasper Server (Servidor web). Birt (Business Intelligence Reporting Tools) [2][8] es un plugin de Eclipse que permite una integracin completa en proyectos J2EE. No posee herramientas ETL ni OLAP especficas (aunque si posee un motor interno para tablas cruzadas) ya que se focaliza principalmente el la generacin de informes. Palo Suite se centra en su motor MOLAP y todo lo que ello conlleva, escenarios, anlisis multidimensional,...[8] Las herramientas desarrolladas son: Palo ETL (ETL Open Source), Palo Web (Aplicacin Web), PALO OLAP (Motor OLAP Open Source), Pivot (Cliente OLAP Open Source) y Palo for Excel (Extrae Informes del motor MOLAP). A continuacin se muestra una tabla con las herramientas anteriormente expuestas y sus urls correspondientes: HERRAMIENTAS BI OPEN SOURCE BASES DE DATOS MySQL PostgreSQL Kettle http://www.mysql.com http://www.postgresql.org ETL http://kettle.pentaho.com/
JasperETL Palo ETL Bee Octupus Enhyndra (ETL) Mondrian Jpivot Palo Bee Pentaho Reporting (JfreeReport) Jasper Report Eclipse Birt JetSpeed Jboss Portal Marvelit Weka Pentaho Eclipse Birt JasperReports Palo
http://sourceforge.net/projects/bee REPORTING http://sourceforge.net/projects/jfreereport http://jasperforge.org/projects/jasperreports http://www.eclipse.org/birt/phoenix CUADROS DE MANDO http://portals.apache.org/jetspeed-2 http://www.jboss.com/products/jbossportal http://www.marvelit.com/index.html DATA MINING hthttp://www.cs.waikato.ac.nz/ml/weka/ SUITES BI http://www.pentaho.org http://www.eclipse.org/birt http://jasperforge.org/projects/jasperreports http://www.jedox.com/en/products/PaloSuite.html
6. BI en Internet
Cada vez son ms las empresas que necesitan que sus sistemas de informacin estn distribuidos y descentralizados, esto conlleva a que un mayor nmero de empresas utilicen los sistemas de informacin en la nube [14]. En el marco econmico actual, las empresas deben ser ms innovadoras y tener una mayor visin estratgica del negocio. A travs de una solucin de BI se pueden alcanzar dichos objetivos, pero como se ha comentado anteriormente la implantacin de un sistema de BI tradicional requiere de gran capital humano, temporal y econmico. Las pequeas y medianas empresas tienen ahora la oportunidad de maximizar su rendimiento a travs de soluciones Cloud Computing, tambin llamadas Cloud BI, en las que el software es ofrecido como servicio, reduciendo as los costes en las infraestructura de informacin y explotando al mximo los beneficios del Cloud Computing [20]. La seguridad es uno de los grandes retos a afrontar con el Cloud BI, ya que debido a la sensibilidad de los datos a tratar es el punto de mayor reticencia para decidirse por un
sistema Cloud BI frente a un sistema BI tradicional. Otros aspectos a tener en cuenta son la velocidad de acceso, la accesibilidad, la prdida de control de los propios datos, compatibilidad con otras herramientas y la falta de un estndar bien definido. Se deben sopesar los beneficios y los riesgos y optar por la solucin que ms convenga al tipo de organizacin en cuestin. Otra opcin de uso de BI en Internet es implementar un sistema propio de BI y que ste sea accesible a travs de Internet. En este tipo de solucin se debe preparar los componentes del sistema para que las herramientas BI puedan extraer la informacin del Data Warehouse, independientemente de dnde se encuentre situado el puesto de trabajo. El Data Warehouse del sistema de BI en Internet debe prepararse para su acceso remoto, las interfaces de usuario deben estar preparadas para conectarse a travs del navegador y la informacin a acceder puede ser interna o externa a la empresa, se accedera a travs de la Intranet o Internet. Tambin se puede habilitar una Extranet con permisos restringidos para permitir que personal externo a la empresa pueda conectarse, como clientes, socios,... La web 2.0 y las redes sociales han dado lugar a la aparicin de BI 2.0. Actualmente las redes sociales como Facebook, Twitter, LinkedIn, absorben la mayor parte del trfico en Internet, por lo tanto la forma de hacer negocios en Internet tambin est cambiando. Por ese motivo el BI 2.0 analiza el uso de dichas redes sociales y propone estrategias de negocio para poder sacarles el mximo provecho. BI 2.0 detecta nuevas oportunidades de negocio de la organizacin en las redes sociales [21]. Tambin se puede utilizar Internet para obtener informacin valiosa para la organizacin a travs del Web Mining. Web Mining es el proceso global de descubrir informacin o conocimiento potencialmente til a partir de datos existentes en Internet [15].
7. BI de Open Source
Uno de los grandes obstculos a los que se enfrenta un proceso de implantacin de BI es el alto coste que va asociado al mismo, este coste llega en muchos casos a superar es coste de la inversin del hardware de la organizacin. Este es el principal motivo por el cual cada vez ms empresas optan por una solucin Open Source frente a las costosas soluciones de las empresas tradicionales. Hay que tener en cuenta que las organizaciones que se decantan por un producto BI Open Source no quedan abandonadas a su suerte, ya que ofrecen un soporte profesional a travs de pago de licencias anuales [9] [10]. Las soluciones BI Open Source reducen considerablemente los costes de implantacin sin comprometer el nivel funcional o la calidad del servicio. Al no pagar una licencia por el software (se paga por mantenimiento y soporte) los clientes evalan el producto y lo aceptan sin sentirse atados a una tecnologa especfica [3]. El Open Source actualmente ha alcanzado un gran grado de madurez y calidad, un ejemplo de ello es el sistema operativo Linux se utiliza cada vez ms en empresas de hosting y en supercomputadoras 1. En resumen las ventajas del BI Open Source frente a otras soluciones de carcter privativo son [1]: la reduccin de costes de implantacin; independencia de los proveedores; empezar con una solucin de bajo coste e ir incrementado progresivamente sus funcionalidades; resultados en estndares abiertos y compatibilidad con otras herramientas.
http://www.top500.org/charts/list/36/osfam
8. Suite Pentaho
Pentaho es una Suite de BI Open Source basada en Java. En su suite Pentaho integra diferentes proyectos open source y los hace funcionar de forma integrada en su plataforma siguiendo el flujo de trabajo. Los proyectos open source que ha integrado en su suite permite que se cubran las siguientes reas: anlisis de informacin, reportes, cuadros de mando, flujos de trabajo y minera de datos [8][10][12]. En la siguiente figura se representa la arquitectura de la Suite Pentaho.
Figura 6: Plataforma BI Pentaho Pentaho Data Integration : Es el proceso ETL (extraccin, transformacin y carga) de la suite Pentaho. Utiliza la herramienta Kettle ETL para realizar dicho trabajo. Utiliza una interface grfica Spoon para disear los trabajos de transformacin de datos que pasan a ser procesados por Kettle [21] tal como se puede visualizar en la siguiente figura.
Pentaho Analysis: Forma parte del motor OLAP integrado en la Suite BI de Pentaho. Pentaho utiliza por defecto el cliente Jpivot (ejemplo de visualizacin en la figura 9) para trabajar con el servidor OLAP Mondrian. Pentaho permite al usuario seleccionar el esquema Mondrian a utilizar y muestra una visualizacin para un anlisis rpido. Un ejemplo del flujo de datos sera [12][22]:
1. El cliente Jpivot enva una solicitud 2. El servidor OLAP Mondrian recibe la solicitud comprueba si tiene la peticin en cach, y si es as responde al cliente. 3. Genera nuevas consultas si los datos no estn en cach. 4. Se almacenan los nuevos datos en cach para posteriores consultas. 5. Se envan los resultados al cliente. Este proceso queda representado en la siguiente figura.
Pentaho Reporting: Basada en el proyecto JfreeReport, permite generar informes de forma gil y de gran capacidad. Soporta la distribucin de los resultados del anlisis en mltiples formatos, todos los informes incluyen la opcin de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho se pueden programar e incluso que sean generados peridicamente [2][22]. En la siguiente figura se pueden visualizar diferentes tipos de informes soportados por Pentaho Reporting.
Pentaho Dashboards: Son los cuadros de mando de Pentaho. Integrados completamente con Pentaho Analysis y Pentaho Reporting. En los cuadros de mando se definen los KPI del sistema BI estos deben reflejar factores genuinos de xito y ser cuantificables [12].
Pentaho Datamining: Utiliza la herramienta Weka. Provee un completo conjunto de algoritmos que automatizan los procesos de transformacin de datos a la forma en que la minera de datos puede explotarlos. Los resultados pueden ser visualizados en modo grfico ya sea agrupado, segmentado, de rbol de decisin, bosque aleatorio, redes neuronales y componentes de anlisis [22]. Pentaho es una suite que integra diferentes herramientas BI que en conjunto ofrecen una solucin completa a las necesidades BI de una organizacin. Pero en contrapartida a las suites comerciales para poder hacer uso de Pentaho, es necesario tener conocimientos tcnicos de TI para la construccin de cuadros de mando, esquemas y conocer lenguajes software como SQL, PHP, Java, XML,... Tambin es necesaria una documentacin ms extensa para poder hacer uso de esta herramienta, existe mucha informacin esparcida en Internet pero sta no est unificada. En el artculo Implementing BI concepts with Pentaho, an evaluation se indica que Pentaho es una buena herramienta que cubre todo el espectro de una solucin BI, pero para poder utilizarla, es necesario poseer mayores conocimientos tcnicos que con otras soluciones comerciales [12].
9. Tendencias en BI
Las tendencias en el uso del BI son varias, pero bsicamente todas se centran en alinear los objetivos de la organizacin con la solucin de BI a implantar. Para ello se deben tener en cuenta diversos factores como: que para satisfacer al usuario los datos a analizar deben estar lo ms actualizados posible, acceso a la informacin independientemente debe de la ubicacin, predicciones, compartir informacin entre diferentes departamentos, anlisis de datos no estructurados, aprovechar la informacin disponible en Internet, tener en cuenta Internet y las redes sociales como una ms de las lneas de negocio,...
Algunas de metodologas que definen las tendencias anteriormente nombradas son: Anlisis Predictivo, Anlisis en Tiempo Real, Anlisis en Memoria, Integracin con CPM, Cloud BI, BI 2.0 y Agile BI Governance. El Anlisis Predictivo de los datos est relacionado con el Data Mining, gracias a la minera de datos y a la evolucin de los mismos a lo largo de un determinado periodo se pueden realizar previsiones de demanda de ciertos productos, anlisis de riesgos,.... [15] El Anlisis en Tiempo Real de los datos es ahora una de las principales tendencias, tradicionalmente los datos se volcaban al Data Warehouse cada cierto tiempo, lo que conllevaba que el BI fuese concebido como plan estratgico a medio y largo plazo. Actualmente la demanda de la actualizacin de los datos es mayor para poder tomar las decisiones con mayor rapidez y mayor acierto [15][16][18]. Un ejemplo podra ser las decisiones a tomar en el cambio de vuelos de pasajeros y equipajes de una compaa area en caso de retrasos. Para conseguir este objetivo es necesario que los datos del Data Warehouse se actualicen en tiempo real. El Anlisis en Memoria se basa en guardar en memoria datos pre-calculados para obtener una mayor rapidez en futuras consultas[15]. Esto es posible gracias a los avances tecnolgicos y el abaratamiento de los costes del hardware. La Integracin de BI con CPM (Corporate Performance Management) es la unin de la informacin proporcionada los las herramientas BI con las estrategias corporativas de la organizacin, llevando esto a tomar acciones concretas [15]. Como ya se ha comentado anteriormente la unin de BI con Internet [15][20][21] es una de las principales tendencias, tanto en su uso para obtener informacin (Web Minning) y detectar oportunidades de negocio (BI 2.0) como en la externalizacin de BI a travs del Cloud Computing (Cloud BI). Agile BI Governance es otra forma de concebir el BI, ms enfocado al usuario y a la organizacin que a las TI. Empleando metodologas giles (entregas frecuentes, dilogo, simplicidad,...) con las que el usuario se siente ms cmodo y adaptando la solucin BI a las necesidades de la organizacin, se consiguen mejores resultados y una mayor satisfaccin del usuario[14]. Otra de las tendencias a tener en cuenta es la unificacin de los diferentes Data Marts dentro de una organizacin en un nico Data Warehouse [15][16]. Con esto se consigue evitar los silos de informacin existentes entre los diferentes departamentos dentro de la organizacin. Otro efecto de esta unin es que la informacin ya no se enva a los usuarios, sino que son estos los que acceden a travs de diferentes herramientas a la informacin deseada, producindose as una democratizacin de la informacin dentro de la organizacin.
10. Conclusiones
En este artculo se ha expuesto el estado actual de los sistemas de informacin de los sistemas de BI y las herramientas que se pueden utilizar para realizar una implantacin de dicho sistema. Los sistemas BI no son la panacea, existen organizaciones en las que la implantacin de un sistema BI no ha resultado exitosa y ello se debe principalmente a la mala o no definicin de los factores crticos de xito (CSF) que se pretenden alcanzar con la implantacin del sistema. Un sistema BI bien definido aporta grandes beneficios, pero a veces estos no son fcilmente cuantificables, por ello se deben definir objetivos
realistas y sobre todo promocionar el uso del BI y sus ventajas entre los usuarios del mismo. La implantacin de los sistemas tradicionales de BI (normalmente suites comerciales) conllevan un alto coste tanto econmico, como humano y temporal, lo que conlleva que las pequeas y medianas empresas no se decidan por implantar este tipo de soluciones. Actualmente han aparecido en el mercado suites BI completas open source que requieren un menor coste de licencias, esto ha animado a las pymes a implantar soluciones BI open source en su empresa, si bien hay que remarcar que generalmente para la implantacin de ests soluciones open source es necesario poseer mayores conocimientos tcnicos que con las suites BI privativas y que el coste total de la implantacin de la solucin depender de cada caso concreto. Las pymes tambin estn empezando a utilizar el Cloud BI, a travs del cual no hace falta realizar una gran inversin en infraestructura TI, ya que se ofrece el BI como un servicio. Este tipo de soluciones no es factible para todas las empresas, ya que el volumen de los datos a tratar, la sensibilidad de los mismos, los requisitos en los tiempos de accesos y la seguridad ofrecida en el Cloud BI pueden no satisfacer a todos los tipos de organizacin. Como conclusin del presente artculo se puede apreciar que existen multitud de herramientas y tipos de soluciones BI para implantar en una empresa, pero que el tipo de herramienta seleccionada no es el principal factor determinante del xito de la implantacin, sino que el xito depender principalmente de un buen conocimiento de la organizacin y la involucracin de los usuarios en todo el proceso. En futuras lneas de trabajo se puede investigar ms acerca del Cloud BI y como van evolucionando los servicios ofrecidos a travs de ste, para poder solventar los inconvenientes existentes tanto a nivel tecnolgico como legal, debido a la sensibilidad de los tipos de datos. La explotacin de las lneas de negocio planteadas a travs del BI 2.0 en las redes sociales tambin sera una futura lnea de investigacin.
Referencias
[1] Eduardo Nicols Campazzo; Virginia Ins Santos. Business Intelligence: Negocios Inteligentes para Empresas Inteligentes . Universidad Nacional de la Rioja. Rene Favaloro esq. Laprida, CP5300, La Rioja, Argentina.http://www.imamu.edu.sa/DContent/IT_Topics/negocios_inteligentes_para_ empresas_inteligentes.doc. 2006 [2] Josep Curto Daz. Comparativa herramientas reporting open source. Stratebi http://www.telefonica.net/web2/todobi/Oct07/Reporting_OS.pdf . 2007 [3] Chip Nickolett. La Informtica Decisional en Open Source (Business Intelligence) .Ingres Corporation.http://downloads.ingres.com/online/collaterals/wp/SP/DeliveringBusinessI ntelligence-SP.pdf .2008 [4] Zack Jourdan; R. Kelly Rainer; Thomas E. Marshall. Business Intelligence: An Analysis of the Literature. Department of Management, College o Business, Auburn University, Auburn, Alabama, USA. Engineering Management Review, IEEE http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4648888 . 2008 [5] Jos Luis Regidor. Reflexiones sobre el estado del arte del Business Intelligences. Revista BIT - http://dialnet.unirioja.es/servlet/dcart? info=link&codigo=1263196&orden=49819 Septiembre 2005 [6] Christian Thomsen; Torben Bach Pedersen. A Survey of Open Source Tools for Business Intelligence . Department od Computer Science, Aalborg University. Lecture
Notes in Computer Science, 2005, Volume 3589/2005 http://www.springerlink.com/content/0djlyx6ywtxewch2/fulltext.pdf 2005 [7] William Yeoh; Andy Koronios. Critical Success Factors for Business Intelligence Systems . University of South Australia. SA 5095 Australia. Journal of computer information systems, 2010. http://www.iacis.org/jcis/pdf/Yeoh_Koronios_2010_50_3.pdf . 2010 [8] Stratebi (Los autores no aparecen en el documento). Comparativa B.I. Open Source. 2010 [9] Roland Bouman,Jos van Dongen. Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL . ISBN: 9780-470-48432-6. 2009 [10] Jordi Conesa i Caralt (coord.); Josep Curto Diaz. Introduccin al Business Intelligence. Universitat Oberta de Catalunya. ISBN: 9788497888868. 2010 [11] Sixto Ortix Jr. Taking Business Intelligence to the Masses. Http://ComputingNow.computer.org. 2010 [12] Orhan Tuncer, Jan van den Berg. Implementing BI concepts with Pentaho, an evaluation. Delft University of Technology. Netherlands. 2010 [13] Lyndsay Wise. Cinco pasos para lograr un proyecto de BI exitoso . TEC Technology Evaluation Center. Junio 2007 [14] J. Fernndez, E. Mayol, J.A. Pastor. Agile Business Intelligence Governance: Sus justificacin y presentacin . Universitat Politcnica de Catalunya. Universitat Oberta de Catalunya. [15] Carmen Cmara Nez. Anlisis de los Sistemas de Business Intelligent y su Aplicacin Prctica en Proyectos Software. Universidad Carlos III de Madrid. 2010 [16] Josep Llus Cano. Business Intelligence: Competir con Informacin. Depsito Legal: M-41185-2007. 2007 [17] Jayanthi Ranjan. Business Intelligence: Concepts, Components, Techniques and Benefits. University of Management Technology, Ghaziabad, India. 2009 [18] Hugh J. Watson. Barbara H Wixom. The Current State of Business Intelligence. University of Georgia, University of Virginia. Septiembre 2007 [19] Estibaliz Rotaeche Corts. Business Intelligence. El Conocimiento Compartido Ibermtica. 2007 [20] Marinela Mircea, Bogdan Ghilic, Marian Stoica. Combining Business Intelligence with Cloud Computing to delivery agility in actual economy. Department of Economic Informatics. The Bucharest Academy of Economic Studies. 2011 [21] Gregory S. Nelson. Business Intelligence 2.0: Are we there yet? . ThotWawe Technologies, Chapel Hill North Carolina. 2010 [22] Alexandro Salinas. Introduccin a Pentaho. http://www.gravitar.biz/index.php/bi/introduccion-pentaho-parte-1/ . 2008