Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: BORGES, Dimitrius Guilherme Ferreira lattes
Orientador(a): MOREIRA, Edmilson Marmo lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Itajubá
Programa de Pós-Graduação: Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
Departamento: IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.unifei.edu.br/jspui/handle/123456789/2275
Resumo: O número de veículos nas ruas de todo o mundo tem crescido rapidamente ao longo da última década, impactando diretamente em como o tráfego urbano é gerenciado. O controle de cruzamentos sinalizados é um problema largamente conhecido e estudado e que, embora cada vez mais tecnologias sejam exploradas e aplicadas, ainda se encontram desafios e oportunidades ao tratar o problema, principalmente quando confronta-se a ineficiência dos já bem difundidos semáforos de tempos fixos, incapazes de lidar com eventos dinâmicos. O objetivo deste trabalho é aplicar Hierarchical Reiforcement Learning (HRL) ao controle de um cruzamento veicular semaforizado e, a partir dos resultados obtidos, compará-lo a um semáforo de tempos fixos dimensionado pelo Método de Webster. HRL é uma variação de Reinforcement Learning (RL), em que objetivos secundários, representados por sub-políticas, são propostos e organizados em um modelo hierárquico e gerenciados por uma política macro, responsável por selecioná-las quando se espera rendimento máximo das mesmas, sendo que tanto as sub-políticas quanto a principal são regidas pelo framework Q-learning. Herarchical Reinforcement Learning foi escolhido por aliar a capacidade de aprendizado e tomada de decisão feitos de acordo com observações do ambiente em tempo real, característicos do Reinforcement Learning, com um modelo similar ao Dividir para Conquistar, que desmembra o problema principal em sub-problemas. Isso traz ao modelo uma maior dinâmica e poder de adaptabilidade a um problema que exibe, por vezes, variações imprevisíveis, impossíveis de serem levadas em conta em abordagens determinísticas, como o Método de Webster. Os cenários de testes, formados por diversos tipos de fluxo de veículos, aplicados a um cruzamento de duas vias simples, foram construídos através da ferramenta de simulação SUMO. Os modelos HRL, suas sub-políticas isoladas e o Método de Webster são aplicados e avaliados a partir destes cenários onde, de acordo com os resultados obtidos, HRL se mostra superior tanto ao Método de Webster quanto às suas sub-políticas isoladas, mostrando-se uma alternativa simples e eficaz.