[pt] APRENDIZADO BAYESIANO PARA REDES NEURAIS
Ano de defesa: | 2009 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538&idi=2 http://doi.org/10.17771/PUCRio.acad.14538 |
Resumo: | [pt] Esta dissertação investiga as Redes Neurais Bayesianas, que é uma nova abordagem que conjuga o potencial das redes neurais artificiais com a solidez analítica da estatística Bayesiana. Tipicamente, redes neurais convencionais como backpropagation, têm bom desempenho mas apresentam problemas de convergência, na ausência de dados suficientes de treinamento, ou problemas de mínimos locais, que trazem como conseqüência longo tempo de treinamento (esforço computacional) e possibilidades de sobre-treinamento (generalização ruim). Por essas razões, tem-se buscado desenvolver novos algoritmos de aprendizado para redes neurais baseados em princípios que pertencem a outras áreas da ciência como a Estatística, Lógica Nebulosa, Algoritmos Genéticos, etc. Neste sentido, este trabalho estuda e avalia um novo algoritmo de aprendizado baseado na estatística bayesiana, que consiste na utilização do mecanismo de interferência bayesiana no cálculo dos parâmetros (pesos) da rede neural. As principais etapas deste trabalho foram: o estudo das diferenças dos enfoques da estatística clássica e bayesiana sobre o aprendizado das redes neurais; o estudo dos métodos utilizados na inferência bayesiana; a avaliação das redes neurais Bayesianas (RNB) com aplicações Benchmarks; e por último, a avaliação das RNBs com aplicações reais. A diferença entre a estatística clássica e Bayesiana sobre o aprendizado das redes neurais esá na forma em que os parâmetros da rede são calculados. Por exemplo, o princípio de máxima verossimilhança quepertence à estatística clássica, na qual está baseada o algoritmo de backpropagation, se caracteriza por estimar um único vetor de parâmetros da rede neural. Por outro lado, a inferência Bayesiana se caracteriza por calcular uma função de densidade de probabilidade sobre todos os possíveis vetores de parâmetros que a rede neural pode possuir. Os métodos utilizados na inferência Bayesiana para calcular a função de densidade de probabilidade dos parâmetros. Neste trabalho se deu ênfase a dois métodos amplamente utilizados na estatística Bayesiana: o método de aproximação gaussiana e o método de MCMC (Markov Chain Monte Carlo), que mostraram sua efetividade com respeito ao problema da dimensão elevada do vetor de parâmetros. Para avaliar o desempenho destes algoritmos de aprendizado Bayesiano, foram feitos testes em aplicações benchmarks de previsão, classificação e aproximação de uma função. Também foram desenvolvidas aplicações reais de previsão de uma série temporal e carga elétrica e reconhecimento de face onde se avaliou o desempenho destes algoritmos. Além disso, foram feitas comparações entre estes algoritmos de aprendizado Bayesiano com o backpropagation, sistemas neuro fuzzy hierárquicos e outras técnicas estatísticas tais como Box&Jenkins e Holt-Winters. Com este trabalho, verificou-se que entre as vantagens dos algoritmos de aprendizado Bayesiano tem-se: a de minimizar o problema de sobre-treinamento (overfitting); controlar a complexidade do modelo (princípio de Occam’s razor) e ter boa generalização com poucos dados de treinamento. |