Modelo de rede neural crescente de aprendizagem por reforço

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: VIEIRA, Davi Carnaúba de Lima
Orientador(a): ADEODATO, Paulo Jorge Leitão
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/25491
Resumo: Os algoritmos da Aprendizagem por Reforço (AR) têm sido amplamente utilizados para a construção de agentes autônomos. Inspirada no comportamento da aprendizagem animal, a AR é um paradigma que serve como base para algoritmos que aprendem por tentativa e erro. Apesar da sua popularidade e sua sólida base matemática e garantia teórica de convergência para uma solução ótima, a AR apresenta restrições de aplicação em tarefas em que o espaço de estados é muito grande. Por meio do agrupamento de estados similares é possível reduzir o tamanho do espaço de estados. Uma vez reduzido, o problema pode ser resolvido utilizando os algoritmos tradicionais da AR. A principal questão que se coloca aqui é como efetuar a agregação, de tal modo que, por um lado, se possa obter uma “boa” representação do espaço de estados, e pelo outro lado, o desempenho do modelo não degrade. Este é um dos grandes desafios da AR. Esta tese propõe agrupar estados similares, por meio do uso do mapa auto-organizável de Fritzke, como forma de reduzir o espaço de estados. A maior parte das pesquisas que envolvem o uso de algoritmos que discretizam o espaço de estados busca aprimorar o momento certo para a partição do espaço de estados, onde particionar e quando parar, enquanto os algoritmos AR permanecem inalterados. Esses trabalhos em geral resultam em algoritmos que não convergem em determinados problemas ou que possuem uma capacidade de aprendizagem “fraca”. O presente trabalho contribui mostrando a fragilidade destes algoritmos ao mesmo tempo em que apresenta uma solução eficaz para o problema. Esta tese compara o algoritmo proposto com quatro algoritmos AR chamados: Tile Coding (TC), Temporal Difference Adaptive Vector Quantification (TD-AVQ), Q(λ) com Discretização Uniforme (Q(λ)-DU) e Interpolating Growing Neural Gas Q-learning (IGNG-Q). Os experimentos mostram que o algoritmo proposto foi capaz de encontrar a solução dos cinco ambientes de teste envolvidos. Em comparação com o algoritmo TC, o algoritmo proposto foi capaz de proporcionar uma redução no uso da memória de 88%, 87%, 98% e 97% nos ambientes Continuous Maze, Slow Puddle World, Mountain Car e Acrobot, respectivamente. No teste, o algoritmo proposto foi o único capaz de produzir uma política utilizável nos ambientes Continuous Maze e Slow Puddle World. O presente trabalho também mostra que o algoritmo n-step Temporal Difference with Elegibility Traces (TD(nλ)) é mais indicado para o uso em ambientes discretizados que o Q(λ). O uso do algoritmo proposto com Discretização Uniforme (DU) foi capaz de mostrar convergência em problemas onde o Q(λ) não conseguiu. O produto final desta tese é um algoritmo robusto capaz de encontrar em tempo hábil uma solução para todos os ambientes de teste envolvidos.