Distribuição dos Dados em Ambientes de Data Warehousing: O Sistema WebD2W e Algoritmos Voltados à Fragmentação Horizontal dos Dados

Detalhes bibliográficos
Ano de defesa: 2002
Autor(a) principal: Dutra de Aguiar Ciferri, Cristina
Orientador(a): da Fonseca de Souza, Fernando
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/1930
Resumo: Um ambiente de data warehousing consolida dados de interesse de provedores de informação autônomos, distribuídos e heterogêneos em uma única base de dados, chamada de data warehouse. Esse ambiente garante eficiência e flexibilidade na recuperação de informações estratégicas voltadas aos processos de gerência e tomada de decisão, e mantém os dados integrados no data warehouse com alta qualidade e confiabilidade. Os dados extraídos de cada provedor de informação são traduzidos, filtrados quando necessário e integrados com informações relevantes de outros provedores antes de serem armazenados no data warehouse. Este processo de carregamento dos dados é realizado de forma que consultas OLAP (on-line analytical processing) possam ser respondidas diretamente a partir do data warehouse, sem a necessidade de acesso aos provedores de informação originais. Em geral, o data warehouse representa uma única base de dados centralizada. Distribuir os dados armazenados nessa base de dados levando-se em consideração as características intrínsecas de aplicações de data warehousing e as necessidades dos usuários de sistemas de suporte a decisão apresenta várias vantagens, porém introduz novos desafios a ambientes de data warehousing. Dentro deste contexto, esta tese tem por objetivo propor o sistema WebD2W, enfocando um dos seus principais objetivos: a distribuição dos dados do data warehouse. O sistema WebD2W (Web Distributed Data Warehousing) é um ambiente de data warehousing distribuído clienteservidor que visa não somente a distribuição dos dados do data warehouse, mas também o acesso distribuído a esses dados usando a tecnologia Web como infra-estrutura. As suas metas genéricas consistem em: aumentar a disponibilidade dos dados do data warehouse, aumentar a disponibilidade de acesso a esses dados, manter a consistência dos dados distribuídos, proporcionar aumento no desempenho do processamento de consultas submetidas ao ambiente de data warehousing, garantir as transparências de fragmentação, de replicação e de localização na manipulação dos dados, e oferecer suporte a um grande número de usuários. Além de apresentar a arquitetura do sistema WebD2W, esta tese também propõe um conjunto de algoritmos voltados à fragmentação horizontal dos dados do data warehouse: algoritmo FHU D, algoritmo FHU DHA, algoritmo FHM D, algoritmo FHM DHA e algoritmo FH MN. Esses algoritmos são baseados nos conceitos de grafo de derivação, de propagação das dimensões sendo fragmentadas aos vértices do grafo e de fragmentação ou reconstrução de agregações. Os algoritmos propostos constituem a fundamentação para o sistema WebD2W. Os diferenciais dos algoritmos propostos nesta tese referem-se ao fato de que esses algoritmos: (i) levam em consideração a organização dos dados do data warehouse em diferentes níveis de agregação; (ii) podem ser aplicados a diferentes cenários, de acordo com as características do grafo de derivação que representa a aplicação de data warehousing sendo fragmentada e com a dimensionalidade do processo de fragmentação; (iii) priorizam a execução de consultas drill-down e roll-up nos sites individuais, além de enfocarem consultas slice and dice; (iv) independem da forma de armazenamento dos dados multidimensionais em estruturas de dados relacionais (isto é, sistemas ROLAP) ou em estruturas de dados especializadas (ou seja, vi sistemas MOLAP); (v) podem ser aplicados tanto em situações nas quais todas as agregações que podem ser geradas a partir dos dados detalhados são armazenadas no data warehouse quanto em situações nas quais nem todas essas agregações são materializadas no data warehouse; e (vi) oferecem um tratamento simétrico das dimensões e das medidas numéricas. Por fim, o sistema WebD2W foi contextualizado por meio de uma aplicação de data warehousing real voltada à análise de diagnósticos de saúde no Município de Belo Horizonte. Essa aplicação foi investigada em termos da importância da distribuição dos seus dados e do uso da Web como infra-estrutura de acesso. Em particular, um subconjunto dos dados da referida aplicação foi fragmentado horizontalmente pelo algoritmo FHU D