Sistema para reconhecimento de emoção multimodal e multiclasse para interação humano-robô

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Ottoni, Lara Toledo Cordeiro lattes
Orientador(a): Cerqueira, Jés de Jesus Fiais lattes
Banca de defesa: Doria Neto, Adrião Duarte, Netto, Mariana Schiavo, Camada, Marcos Yuzuru de Oliveira, Fernandes Júnior, Antônio Carlos, Cerqueira, Jés de Jesus Fiais
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica (PPGEE) 
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufba.br/handle/ri/40541
Resumo: O desafio da Interação Humano-Robô (IHR) é construir sistemas inteligentes que possam se adaptar às mudanças dos usuários e do ambiente, a fim de melhorar a interação em tempo real. Desta forma, uma abordagem crescente é o uso de emoções na IHR. Neste sentido, existem os sistemas de reconhecimento de emoção multimodal, nos quais, realizam a classificação das emoções em várias modalidades (expressão facial, gestos, fala, e outros). No entanto, embora existam estudos que tratam do reconhecimento multimodal de emoções, eles ainda apresentam limitações na metodologia da classificação das emoções, além de considerar as emoções como binárias e ignorando as várias emoções que podem estar presentes no usuário. Assim, o objetivo deste trabalho foi propor um sistema de reconhecimento de emoções multimodal e multiclasse para a interação humano-robô. É proposto o uso das modalidades de expressão facial e fala, assim como a fusão das emoções. O Módulo de Reconhecimento de Emoção da Fala (MREF) é responsável por inferir a emoção na fala do usuário, no qual é utilizado um modelo de aprendizado profundo para classificar a emoção. Também é proposto o Módulo de Reconhecimento de Emoção da Expressão Facial (MREEF), que classifica a emoção pela face do usuário utilizando rede neural convolucional (CNN). Por fim, propõe-se a fusão das emoções reconhecidas utilizando sistema nebuloso. O sistema proposto utiliza da base de dados MELD, obtendo um resultado de 73% de acurácia usando apenas o MREF, 78,06% utilizando apenas o MREEF, e 78,94% de acurácia usando a fusão dos módulos.