Controle flexível de sistemas a eventos discretos utilizando simulação de ambiente e aprendizado por reforço

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Zielinski, Kallil Miguel Caparroz lattes
Orientador(a): Casanova, Dalcimar lattes
Banca de defesa: Casanova, Dalcimar lattes, Florindo, Joao Batista lattes, Lopes, Yuri Kaszubowski lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Pato Branco
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/25701
Resumo: Sistemas a Eventos Discretos (SEDs) são modelados classicamente com Máquinas de Estados Finitos (MEFs), e possuem máxima permissividade, controlabilidade e não bloqueabilidade utilizandoa Teoria de Controle Supervisório (TCS). Enquanto a TCS é poderosa para lidar com eventos de um SED, ela falha ao processar eventos em que o controle é baseado em premissas probabilísticas. Neste documento, mostramos que alguns eventos podem ser tratados comumente na TCS, enquanto outros podem ser processados utilizando Inteligência Artificial. Primeiro apresentamos uma ferramenta para converter controladores da TCS em simulações de ambientes de Aprendizado por Reforço (AR), em que eles se tornam suscetíveis a processamento inteligente. Em sequência, propomos uma abordagem baseada em AR que reconhece o contexto em que um conjunto de eventos estocásticos ocorre e os trata de acordo, buscando uma tomada de decisões como complemento dos caminhos determinísticos da TCS. O resultado é uma eficiente combinação de um controle flexível e seguro, que tende a maximizar o desempenho de um SED que evolui de maneira probabilística. Dois algoritmos de AR são testados: SARSA e N-STEP SARSA, sobre uma planta automotiva controlada flexível. Os resultados sugerem um aumento de 9 vezes no desempenho utilizando a combinação proposta em comparação com decisões não inteligentes.