Analysis of classical and advanced control techniques tuned with reinforcement learning

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: SILVA, Daniel Abreu Macedo da lattes
Orientador(a): SILVEIRA, Antonio da Silva lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Pará
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Instituto de Tecnologia
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufpa.br/jspui/handle/2011/16686
Resumo: A teoria de controle é utilizada para estabilizar sistemas e obter respostas específicas para cada tipo de processo. Controladores clássicos, como o PID utilizado nesta pesquisa, são difundidos globalmente nas indústrias, isto por possuírem topologias bem estudadas pela literatura e serem facilmente aplicados em microcontroladores ou controladores lógico programáveis; já os avançados, como GMV, GPC e LQR também utilizados neste trabalho, possuem certa resistência em aplicações comuns das indústrias de base, mas são muito utilizados em sistemas de energia, aerospaciais e robóticos, pois a complexidade e estrutura desses métodos gera robustez e alcança desempenhos satisfatórios para processos de difícil controle. Neste trabalho, esses métodos são estudados e avaliados com uma abordagem de sintonia que utiliza o aprendizado por reforço. São aplicadas duas formas de sintonia para os controladores, estas são o método da Repetição e Melhora e o método de Jogos Diferenciais. O primeiro utiliza iterações offline, onde o agente do processo é a técnica de controle escolhida, que trabalha com os índices de desempenho e robustez como ambiente (métrica de como o processo está evoluindo), sendo capaz de organizar uma política de ajuste para o controlador, que se baseia em recompensar o fator de ponderação até obter o critério de parada do processo (resposta desejada). O segundo método se baseia em utilizar estratégias de reforço que recompensam o controlador conforme a resposta se modifica, assim o LQR aprende as políticas de controle ideais, adaptando se às mudanças do ambiente, o que permite obter melhor desempenho por recalcular os tradicionais ganhos encontrados com a equação de Ricatti para sintonia do regulador; neste método, os jogos diferenciais são utilizados como uma estrutura para modelar e analisar sistemas dinâmicos com múltiplos agentes. Para validar o que é apresentado, o Motor Tacogerador e o Ar Drone são escolhidos. O Motor Tacogerador é modelado com a estimação dos mínimos quadrados em uma estrutura ARX-SISO para avaliação do primeiro método de sintonia. O Ar Drone é modelado com uma abordagem em espaço de estados para avaliação do segundo método de sintonia.