Tesis dirigida por






descargar 455.54 Kb.
títuloTesis dirigida por
página7/11
fecha de publicación15.06.2015
tamaño455.54 Kb.
tipoTesis
m.exam-10.com > Finanzas > Tesis
1   2   3   4   5   6   7   8   9   10   11

2.3.Data warehouse


Un Data Warehouse (DW) o Almacén de datos es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

Los "almacenes de datos" son una tecnología relativamente reciente, encaminada a proporcionar metodologías para recopilar e integrar los datos históricos de una organización, cuyo fin es el análisis, la obtención de resúmenes e informes complejos y la extracción de conocimiento. Esta tecnología está diseñada especialmente para organizar grandes volúmenes de datos de procedencia generalmente estructurada (por ejemplo bases de datos relacionales).

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales, etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

La siguiente tabla describe las diferencias que se deben tener en cuenta para estructurar y diseñar almacenes de datos en comparación con las bases de datos transaccionales.

Tabla 2. Diferencias entre las bases de datos transaccionales y los almacenes de datos.

Parámetros

Base de Datos Transaccional

Almacén de Datos

Propósito

Operaciones diarias. Soporte a las aplicaciones.

Recuperación de información, informes, análisis y minería de datos.

Tipo de datos

Datos de funcionamiento de la organización.

Datos útiles para el análisis, la sumarización, etc.

Características de los datos

Datos de funcionamiento, cambiantes, internos, incompletos.

Datos históricos, datos internos y externos, datos descriptivos.

Modelo de datos

Datos normalizados.

Datos en estrella, en copo de nieve, parcialmente desnormalizados, multidimensionales.

Número y tipo de usuarios

Cientos/miles: aplicaciones, operarios, administrador de la base de datos.

Decenas: directores, ejecutivos, analistas.

Acceso

SQL. Lectura y escritura.

SQL y herramientas propias (slice & dice, drill, roll, pivot). Lectura.
      1. Principales Aportes de un Data Warehouse


  • Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.

  • Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.

  • Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.

  • Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.

  • Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.

Existen dos paradigmas en el campo del Data Warehousing, el paradigma de Bill Inmon y el paradigma de Ralph Kimball, ambos conocidos como los padres del Data Warehouse.

El paradigma de Inmon:

La tecnología de data warehouse, forma parte de los sistemas de inteligencia de negocio. Una empresa debe tener un Data Warehouse y varios Data Marts que se nutran de la información del Data Warehouse. En un Data Warehouse la información puede estar almacenada en Tercera Forma Normal.

Según definió el propio Bill Inmon, un datawarehouse se caracteriza por ser:

  • Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

  • Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.

  • Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

  • No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.

El paradigma de Kimball:

Un Data Warehouse es la unión de todos los Datamarts de las diferentes áreas de una empresa. La información se almacena siguiendo un modelo dimensional.

Ambos paradigmas son válidos pero se considera al de Ralph Kimball como el más ajustado a la evolución de esta tecnología dado que la mayoría de las organizaciones por diversos motivos, casi siempre tiempo y costo de producción, comienzan por la implementación de varios Data Marts que posteriormente se integran en un Data Warehouse, y el modelo dimensional se ha convertido en un patrón de diseño muy difundido en esta tecnología.

Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo, etc.

Los metadatos serán los que permiten simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:

  • Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.

  • Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría, gestión de la información histórica, administración del datawarehouse, elaboración de programas de extracción de la información, especificación de las interfaces para la realimentación a los sistemas operacionales de los resultados obtenidos... etc.

Para comprender íntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construcción del mismo, denominado ETL (Extracción, Transformación y Carga), a partir de los sistemas operacionalees de una compañía:

  • Extracción: obtención de información de las distintas fuentes tanto internas como externas.

  • Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.

  • Carga: organización y actualización de los datos y los metadatos en la base de datos.

El desarrollo de los sistemas de información sustentados sobre bases de datos, ha traído como consecuencia la proliferación de herramientas de consultas cada vez más complejas. Por tanto, es necesario distinguir los diferentes tipos de procesamiento existentes: el procesamiento transaccional y el procesamiento analítico.

Procesamiento Analítico


Los datawarehouse soportan el procesamiento analítico en línea, conocido como OLAP (On-Line Analytical Processsing), El procesamiento OLAP reúne un gran número de operaciones (solamente de consulta), en las se cruzan gran cantidad de información con el objetivo final de crear informes y resúmenes que sean útiles en la toma de decisiones. Los algoritmos que utiliza están implementados para optimizar los tiempos de respuesta a las consultas, logrando eficiencia y almacenando los datos en estructuras especializadas.

OLAP fue creado bajo las siguientes ideas:

  • Lograr rapidez de respuesta: entregar la información a los usuarios finales en el menor tiempo posible, de 0 a 5 segundos.

  • Posibilitar el análisis: Ofrecer análisis numérico y estadístico de los datos, con valores agregados. Esto permite analizar tendencias, causas, detectar variables de interés y descender hasta los niveles más bajos de la información, lo que se complementa con la ayuda de los motores de reportes y gráficos que se incluyen. También incluye vistas personalizadas.

  • Compartir Datos: Incluye los mecanismos de seguridad necesarios para compartir la información entre los usuarios que se definan.

  • Basado en un Estructura Multidimensional: Haciendo sencilla la selección y navegación de los datos.

  • Recuperación de Información: Acceso a los datos y recuperación de información valiosa (solo lectura) para las diferentes aplicaciones clientes.

Existen tres tipos de OLAP:
Sistemas M-OLAP

En un sistema M-OLAP los datos se encuentran almacenados en archivos con estructura multidimensional, los cuales reservan espacio para todas las combinaciones de todos los posibles valores de todas las dimensiones de cada una de las variables, incluyendo los valores de dimensión que representan acumulados. Es decir, un sistema M-OLAP contiene precalculados (almacenados) los resultados de todas las posibles consultas a la base de dato]. M-OLAP consigue consultas muy rápidas a costa de mayores necesidades de almacenamiento, y retardos en las modificaciones (que no deberían producirse salvo en casos excepcionales), y largos procesos batch de carga y cálculo de acumulados.

MOLAP es la forma clásica de OLAP. Se construye el almacén de datos directamente sobre estructuras matriciales multidimensionales. Se almacenan las agregaciones y una copia de los datos bases. Una vez realizada la carga, el motor de MOLAP se encarga de brindar la información detallada y agregada. Solo se requiere la participación del servidor de bases de datos cuando se vuelvan a procesar los datos.

El sistema M-OLAP utiliza una arquitectura de dos niveles: La bases de datos multidimensionales y el motor analítico.

Sistemas R-OLAP (Relational OLAP)

Se construye el almacén de datos directamente sobre un gestor de base de datos relacional, todas las tablas (hechos y dimensiones) son almacenadas en tablas relacionales.

En R-OLAP, al contener solo las combinaciones de valores de dimensión que representan detalle, es decir, al no haber redundancia, el archivo de base de datos es pequeño. Los procesos batch de carga son rápidos (ya que no se requiere agregación), y sin embargo, las consultas pueden ser muy lentas, por lo que se aplica la solución de tener al menos algunas consultas precalculadas.

El sistema R-OLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor R-OLAP proporciona la funcionalidad analítica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtención del dato. El nivel de aplicación es el motor que ejecuta las consultas multidimensionales de los usuarios. El motor R-OLAP se integra con niveles de presentación, a través de los cuales los usuarios realizan los análisis OLAP.

HOLAP (Hybrid OLAP): usa tablas relacionales para almacenar la información base y estructuras multidimensionales para las agregaciones, o sea, es una combinación de los dos anteriores.

Cada uno de los tipos de OLAP tienen beneficios en dependencia del problema en que se aplique. MOLAP requiere de menor espacio de almacenamiento y es más rápido calculando las agregaciones y devolviendo las respuestas, aunque se recomienda emplear para pequeños volúmenes de datos. ROLAP es considerado el más escalable, pero es más lento en el pre procesamiento y rendimiento de las consultas. HOLAP es rápido en el pre procesamiento y rendimiento de las consultas, aunque más lento que MOLAP y es escalable. HOLAP es ideal para grandes fuentes de datos.

Tabla 2.. R-OLAP vs. M-OLAP

M-OLAP

R-OLAP

  • Consulta rápidas debido a la optimización del rendimiento de almacenamiento, la indexación multidimensional y la memoria caché.

  • La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para grandes volúmenes de datos. Normalmente, esto se puede evitar con un procesamiento incremental, es decir, solo el procesamiento de los datos que han cambiado (por lo general, los nuevos datos) en lugar de volver a procesar de todo el conjunto de datos.

  • Las herramientas M-OLAP tradicionalmente tienen dificultades para consultar con modelos con dimensiones muy altas (del orden de millones de miembros).

  • Eficaz extracción de datos lograda gracias a la pre-estructuración de los datos agregados.

  • El modelo de almacenamiento en vectores/matrices proporciona una indexación natural.







  • Las herramientas R-OLAP tienen menor rendimiento que las herramientas M-OLAP.

  • Con una gran variedad disponible de herramientas de carga de datos, y la posibilidad de ajustar el código ETL(Extract, Transform, Load) a un modelo de datos particular, los tiempos de carga son generalmente mucho menores que con las cargas M-OLAP automatizadas.

  • R-OLAP se considera más escalable para manejar grandes volúmenes de datos, especialmente modelos con dimensiones de gran cardinalidad.

  • La carga de tablas agregadas debe ser gestionado por código personalizado ETL. Las herramientas R-OLAP no ayudan con esta tarea. Esto significa que se necesita más tiempo de desarrollo de código.

  • R-OLAP se basa en una base de datos de propósito general para consultar y cachear, y por lo tanto hay varias técnicas especiales empleadas por las herramientas M-OLAP que no están disponibles (tales como el indexado jerárquico especial). Sin embargo, las herramientas modernas R-OLAP toman ventaja de las últimas mejoras en el lenguaje SQL tales como los operadores CUBE y ROLLUP, Vistas de Cubo DB2, así como también otras extensiones SQL OLAP. Estas mejoras SQL pueden mitigar los beneficios de las herramientas M-OLAP.






1   2   3   4   5   6   7   8   9   10   11

similar:

Tesis dirigida por iconTesis Dirigida por

Tesis dirigida por iconTesis dirigida por: Mg. Carlos Zorrilla

Tesis dirigida por iconLa Orquesta Sinfónica de Castilla y León retoma este jueves y viernes...

Tesis dirigida por iconDirigida por armando suárez

Tesis dirigida por iconColección dirigida por: Francisco Arellano

Tesis dirigida por iconColección dirigida por Michi Strausfeld

Tesis dirigida por iconInvestigación Dirigida para optar por el grado académico de Licenciatura...

Tesis dirigida por iconColección dirigida por Guadalupe Arbona Abascal
Bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, incluidos...

Tesis dirigida por iconEsta empresa será dirigida por un cuerpo directivo, que tendrá como...

Tesis dirigida por iconTesis presentada por la magíster






© 2015
contactos
m.exam-10.com