Utilização de opções para o controle autônomo de robôs móveis.

Detalhes bibliográficos
Ano de defesa: 2002
Autor(a) principal: Letícia Maria Friske
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Tecnológico de Aeronáutica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2511
Resumo: Em aplicações de Aprendizagem por Reforço tais como a navegação de robôs autônomos, o uso de opções (macro-operadores) no lugar de ações de baixo nível tem sido considerado como um meio para produzir convergência mais rápida e uma exploração mais significativa do espaço de estados.Esta dissertação apresenta um estudo sobre a utilização de opções em Aprendizagem por Reforço com o objetivo de encontrar formas para acelerar o processo de aprendizagem. São abordados dois tipos de opções, opções OP e OS. Uma opção OP corresponde a uma política de ações que depende de todos os estados visitados durante a execução da opção, sendo que uma política de ações mapeia uma ação para cada estado do ambiente. O segundo tipo de opções, cuja proposta é uma das principais contribuições do trabalho, corresponde a uma seqüência fixa de ações, que depende exclusivamente do estado em que a opção foi disparada. O desempenho das opções OP e OS foi comparado através da realização de experimentos com o simulador do robô móvel Khepera usando-se o algoritmo de aprendizagem Q-Learning. Também foram realizados experimentos com as opções OP e uma adaptação do método de Campos Potenciais, no qual cada opção OP corresponde a um mapeamento de ações que podem aproximar o agente do seu alvo ou fazer com que o mesmo desvie de obstáculos. Para finalizar os estudos, algumas técnicas conhecidas na literatura que possibilitam melhoras na aprendizagem com opções OP, tais como o Término Melhorado e a utilização de Hierarquias foram aplicadas às opções OS. A primeira técnica possibilita que a execução de uma opção seja interrompida sempre que isto pareça ser melhor que ir até o final da mesma e a utilização de hierarquias permite uma categorização de comportamentos, fazendo a chamada de determinados comportamentos apenas quando estes forem necessários. Os resultados desta última fase experimental também são relatados na dissertação.