Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Brajato, Hiago Matheus |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/217104
|
Resumo: |
Speech Emotion Recognition (SER) pode ser definida como a maneira automatizada de identificar o estado emocional de um locutor a partir da sua voz. Dentre as metodologias encontradas na literatura para viabilizar o SER, as quais ainda carecem de melhor compreensão e discussão, o presente trabalho ocupa-se da abordagem handcrafted extraction para a composição dos vetores de características responsáveis por permitir a classificação dos sinais de voz entre sete classes emocionais distintas: raiva, tédio, desgosto, medo, felicidade, neutralidade e tristeza. Os descritores utilizados, os quais foram obtidos por meio da energia clássica, do Operador de Energia de Teager, do zero crossing rate, da planaridade espectral e da entropia espectral, foram submetidos à Engenharia Paraconsistente de Características, que é responsável por selecionar o melhor subgrupo de características a partir da análise de similaridades e dissimilaridades intra e interclasse, respectivamente. Finalmente, um algoritmo genético associado à uma rede neural multilayer perceptron foi responsável por realizar a classificação dos sinais visando a maior taxa de acurácia possível, isto é, 84.9%, considerando a base de dados pública EMO_DB com 535 sinais na modalidade speaker-independent. Em contraste com abordagens do tipo feature learning, a estratégia proposta permitiu uma melhor compreensão física do problema em questão. |