Reconhecimento de emoções através da fala aplicado a robôs de assistência doméstica

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Meyer, T. S. B. M.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Universitário FEI, São Bernardo do Campo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.fei.edu.br/handle/FEI/4488
https://doi.org/10.31414/EE.2022.D.131422
Resumo: Por meio da fala, que privilegia a natureza funcional e interativa do texto, é possível averiguar as circunstâncias espaço-temporais, as condições de produção e recepção do discurso, os propósitos explícitos como informar, explicar, convencer etc. Condições essas que permitem aproximar a interação entre humanos à interação entre humanos e robôs tomando-a natural e sensível às informações. No entanto, não basta compreender o que é falado, faz-se necessário o reconhecimento de emoções para a interação desejada. Verificou-se a validez do uso de redes neurais para seleção de características e para o reconhecimento de emoções. Para isso propõe-se o uso de Redes Neurais e comparação de modelos, como redes neurais recorrentes e redes neurais profundas, com intuito de realizar a classificação das emoções através dos sinais de fala para verificar a qualidade do reconhecimento. Espera-se possibilitar a implementação em robôs de um ambiente doméstico, como o robô HERA da equipe RoboFEI@Home, que tem como foco robôs de serviço autônomos para o ambiente doméstico. Foram realizados testes utilizando-se apenas os Coeficientes Cepstrais da Frequência-Mel, bem como testes com diversas características do Delta-MFCC, contraste espectral e o espectrograma-Mel. Para realizar o treinamento, validação e testes das redes neurais, usufruiu-se a base de dados eNTERFACE'05, que possui 42 locutores de 14 nacionalidades diferentes falando o idioma inglês. Os dados da base escolhida são vídeos que, para o uso nas redes neurais, foram convertidos em áudios. Constatou-se como resultado uma classificação de 52% de acertos quando empregada a rede neural profunda, quando verificado o uso da rede neural recorrente, sendo a classificação com acurácia igual 44%. Os resultados apresentam maior acurácia quando apenas os Coeficientes Cepstrais da Frequência-Mel são usados para a classificação, utilizando o classificador com a Rede Neural Profunda e em apenas um caso é possível observar um maior acerto por parte da Rede Neural Recorrente, que se dá no uso de diversas características e na configuração de 73 para o tamanho do Batch e 100 épocas de treinamento