Reconhecimento de emoções através da fala aplicado a robôs de assistência doméstica
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Centro Universitário FEI, São Bernardo do Campo
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.fei.edu.br/handle/FEI/4488 https://doi.org/10.31414/EE.2022.D.131422 |
Resumo: | Por meio da fala, que privilegia a natureza funcional e interativa do texto, é possível averiguar as circunstâncias espaço-temporais, as condições de produção e recepção do discurso, os propósitos explícitos como informar, explicar, convencer etc. Condições essas que permitem aproximar a interação entre humanos à interação entre humanos e robôs tomando-a natural e sensível às informações. No entanto, não basta compreender o que é falado, faz-se necessário o reconhecimento de emoções para a interação desejada. Verificou-se a validez do uso de redes neurais para seleção de características e para o reconhecimento de emoções. Para isso propõe-se o uso de Redes Neurais e comparação de modelos, como redes neurais recorrentes e redes neurais profundas, com intuito de realizar a classificação das emoções através dos sinais de fala para verificar a qualidade do reconhecimento. Espera-se possibilitar a implementação em robôs de um ambiente doméstico, como o robô HERA da equipe RoboFEI@Home, que tem como foco robôs de serviço autônomos para o ambiente doméstico. Foram realizados testes utilizando-se apenas os Coeficientes Cepstrais da Frequência-Mel, bem como testes com diversas características do Delta-MFCC, contraste espectral e o espectrograma-Mel. Para realizar o treinamento, validação e testes das redes neurais, usufruiu-se a base de dados eNTERFACE'05, que possui 42 locutores de 14 nacionalidades diferentes falando o idioma inglês. Os dados da base escolhida são vídeos que, para o uso nas redes neurais, foram convertidos em áudios. Constatou-se como resultado uma classificação de 52% de acertos quando empregada a rede neural profunda, quando verificado o uso da rede neural recorrente, sendo a classificação com acurácia igual 44%. Os resultados apresentam maior acurácia quando apenas os Coeficientes Cepstrais da Frequência-Mel são usados para a classificação, utilizando o classificador com a Rede Neural Profunda e em apenas um caso é possível observar um maior acerto por parte da Rede Neural Recorrente, que se dá no uso de diversas características e na configuração de 73 para o tamanho do Batch e 100 épocas de treinamento |