Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Gorgônio, Flavius da Luz e
Orientador(a): Costa, José Alfredo Ferreira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E COMPUTAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/28672
Resumo: Mineração de dados pode ser definida como um conjunto de técnicas para a extração de conhecimento e procura de padrões úteis e previamente desconhecidos em grandes volumes de dados multidimensionais. Algoritmos tradicionais de análise de agrupamento, como mapas auto-organizáveis e K-médias têm sido largamente utilizados como ferramentas de mineração de dados, com o objetivo de permitir a visualização de dados de elevada dimensionalidade, auxiliando na identificação de agrupamentos de dados com características semelhantes. No entanto, algoritmos tradicionais para análise de dados podem não ser eficientes para algumas aplicações atuais por não considerarem a existência de dados armazenados de forma distribuída. Assim, uma crescente tendência de minerar dados armazenados de forma distribuída tem motivado o surgimento de métodos que permitem analisar cada uma das bases de dados isoladamente e combinar os resultados parciais para obter um resultado final. Este trabalho apresenta uma arquitetura para análise de agrupamentos em bases de dados distribuídas, a partir da utilização de algoritmos tradicionais, que reduz sensivelmente a quantidade de dados transferidos entre as unidades remotas e a unidade central. A arquitetura é composta por uma estratégia, baseada em quantização vetorial, que possibilita extrair um conjunto de representantes a partir de partições horizontais e/ou verticais da base de dados, a fim de se obter visões parciais dos agrupamentos existentes em cada um dos conjuntos de dados locais. Posteriormente, os representantes de cada unidade local são enviados à unidade central, que efetua a combinação dos resultados parciais através de um processo de agrupamento sobre os representantes dos dados. Os resultados experimentais obtidos com a utilização da arquitetura proposta sobre diferentes conjuntos de dados demonstram que essa estratégia consegue obter resultados com mesma eficácia que os obtidos com as técnicas de mineração de dados convencionais, onde todas as bases de dados são transferidas para uma unidade central durante a etapa de pré-processamento.