Detalhes bibliográficos
Ano de defesa: |
2016 |
Autor(a) principal: |
VIEIRA, Davi Carnaúba de Lima |
Orientador(a): |
ADEODATO, Paulo Jorge Leitão |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/25491
|
Resumo: |
Os algoritmos da Aprendizagem por Reforço (AR) têm sido amplamente utilizados para a construção de agentes autônomos. Inspirada no comportamento da aprendizagem animal, a AR é um paradigma que serve como base para algoritmos que aprendem por tentativa e erro. Apesar da sua popularidade e sua sólida base matemática e garantia teórica de convergência para uma solução ótima, a AR apresenta restrições de aplicação em tarefas em que o espaço de estados é muito grande. Por meio do agrupamento de estados similares é possível reduzir o tamanho do espaço de estados. Uma vez reduzido, o problema pode ser resolvido utilizando os algoritmos tradicionais da AR. A principal questão que se coloca aqui é como efetuar a agregação, de tal modo que, por um lado, se possa obter uma “boa” representação do espaço de estados, e pelo outro lado, o desempenho do modelo não degrade. Este é um dos grandes desafios da AR. Esta tese propõe agrupar estados similares, por meio do uso do mapa auto-organizável de Fritzke, como forma de reduzir o espaço de estados. A maior parte das pesquisas que envolvem o uso de algoritmos que discretizam o espaço de estados busca aprimorar o momento certo para a partição do espaço de estados, onde particionar e quando parar, enquanto os algoritmos AR permanecem inalterados. Esses trabalhos em geral resultam em algoritmos que não convergem em determinados problemas ou que possuem uma capacidade de aprendizagem “fraca”. O presente trabalho contribui mostrando a fragilidade destes algoritmos ao mesmo tempo em que apresenta uma solução eficaz para o problema. Esta tese compara o algoritmo proposto com quatro algoritmos AR chamados: Tile Coding (TC), Temporal Difference Adaptive Vector Quantification (TD-AVQ), Q(λ) com Discretização Uniforme (Q(λ)-DU) e Interpolating Growing Neural Gas Q-learning (IGNG-Q). Os experimentos mostram que o algoritmo proposto foi capaz de encontrar a solução dos cinco ambientes de teste envolvidos. Em comparação com o algoritmo TC, o algoritmo proposto foi capaz de proporcionar uma redução no uso da memória de 88%, 87%, 98% e 97% nos ambientes Continuous Maze, Slow Puddle World, Mountain Car e Acrobot, respectivamente. No teste, o algoritmo proposto foi o único capaz de produzir uma política utilizável nos ambientes Continuous Maze e Slow Puddle World. O presente trabalho também mostra que o algoritmo n-step Temporal Difference with Elegibility Traces (TD(nλ)) é mais indicado para o uso em ambientes discretizados que o Q(λ). O uso do algoritmo proposto com Discretização Uniforme (DU) foi capaz de mostrar convergência em problemas onde o Q(λ) não conseguiu. O produto final desta tese é um algoritmo robusto capaz de encontrar em tempo hábil uma solução para todos os ambientes de teste envolvidos. |