Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
BORGES, Dimitrius Guilherme Ferreira
 |
Orientador(a): |
MOREIRA, Edmilson Marmo
 |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Itajubá
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
|
Departamento: |
IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.unifei.edu.br/jspui/handle/123456789/2275
|
Resumo: |
O número de veículos nas ruas de todo o mundo tem crescido rapidamente ao longo da última década, impactando diretamente em como o tráfego urbano é gerenciado. O controle de cruzamentos sinalizados é um problema largamente conhecido e estudado e que, embora cada vez mais tecnologias sejam exploradas e aplicadas, ainda se encontram desafios e oportunidades ao tratar o problema, principalmente quando confronta-se a ineficiência dos já bem difundidos semáforos de tempos fixos, incapazes de lidar com eventos dinâmicos. O objetivo deste trabalho é aplicar Hierarchical Reiforcement Learning (HRL) ao controle de um cruzamento veicular semaforizado e, a partir dos resultados obtidos, compará-lo a um semáforo de tempos fixos dimensionado pelo Método de Webster. HRL é uma variação de Reinforcement Learning (RL), em que objetivos secundários, representados por sub-políticas, são propostos e organizados em um modelo hierárquico e gerenciados por uma política macro, responsável por selecioná-las quando se espera rendimento máximo das mesmas, sendo que tanto as sub-políticas quanto a principal são regidas pelo framework Q-learning. Herarchical Reinforcement Learning foi escolhido por aliar a capacidade de aprendizado e tomada de decisão feitos de acordo com observações do ambiente em tempo real, característicos do Reinforcement Learning, com um modelo similar ao Dividir para Conquistar, que desmembra o problema principal em sub-problemas. Isso traz ao modelo uma maior dinâmica e poder de adaptabilidade a um problema que exibe, por vezes, variações imprevisíveis, impossíveis de serem levadas em conta em abordagens determinísticas, como o Método de Webster. Os cenários de testes, formados por diversos tipos de fluxo de veículos, aplicados a um cruzamento de duas vias simples, foram construídos através da ferramenta de simulação SUMO. Os modelos HRL, suas sub-políticas isoladas e o Método de Webster são aplicados e avaliados a partir destes cenários onde, de acordo com os resultados obtidos, HRL se mostra superior tanto ao Método de Webster quanto às suas sub-políticas isoladas, mostrando-se uma alternativa simples e eficaz. |