Erro perceptivo-auditivo de vozes humanas e sintetizadas

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Englert, Marina Taborda [UNIFESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Paulo (UNIFESP)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Voz
Link de acesso: https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826
http://repositorio.unifesp.br/handle/11600/49044
Resumo: Introdução: A análise perceptivo-auditiva é considerada padrão ouro para avaliação das disfonias, apesar da reconhecida variabilidade inter-indivíduos. O uso de treinamento auditivo e estímulos âncora, especialmente com vozes sintetizadas, que têm propriedades acústicas conhecidas e manipuláveis, aumentam a confiabilidade dessa avaliação. No entanto, esses estímulos precisam soar naturais. Objetivo: Verificar a qualidade de vozes sintetizadas por meio da habilidade de fonoaudiólogos e leigos em discriminar vozes humanas e produzidas pelo sintetizador VoiceSim, com tipo e grau de desvio variados. Métodos: Foram selecionados 36 estímulos da emissão da vogal ?é? sustentada, 18 humanos e 18 sintetizados, em igual número por sexo. Vozes humanas: três fonoaudiólogos selecionaram amostras rugosas, soprosas e tensas, com diferentes graus de desvio, da database de uma clínica vocal. Amostras sintetizadas: empregado o sistema VoiceSim que produziu amostras com os mesmos desvios das vozes humanas, manipulando-se os parâmetros de perturbação de frequência para produzir rugosidade, adição de ruído para produzir soprosidade e aumento da tensão e diminuição da separação entre as pregas vocais para produzir tensão. Participaram como ouvintes 269 indivíduos, divididos em três grupos para comparar a percepção entre sujeitos com diferentes experiências auditivas; fonoaudiólogos especialistas em voz ? FV, fonoaudiólogos clínicos gerais - FG e leigos ? IL, todos identificaram as amostras, com 50% de repetição, como sendo humana ou sintetizada; FV e FG também classificaram o grau de desvio (normal, leve, moderado ou intenso) e tipo de voz predominante (rugosa, soprosa ou tensa). Desses 269 ouvintes, 99 foram excluídos por não serem consistentes; assim, mantiveram-se 170 sujeitos (58 FV, 51 FG e 61 IL). Resultados: Os ouvintes erraram 39,3% das identificações, tanto vozes sintetizadas foram identificadas como humanas (42,3%) como vozes humanas foram identificadas como sintetizadas (36,4%) com diferença estatisticamente significante (p=0,001). FV produziu a menor porcentagem de erros em relação à natureza das vozes (34,6%); FG e IL identificaram quase metade das vozes sintetizadas como humanas (46,9% e 45,6%). As vozes masculinas, humanas ou sintetizadas, foram mais suscetíveis a erro de identificação, independente do tipo ou grau de desvio, sendo que as soprosas sintetizadas foram as que geraram maior confusão perceptiva; as vozes com desvio intenso parecem ser mais suscetíveis a erro; vozes humanas femininas e tensas sintetizadas apresentaram menor porcentagem de erros. IL apresentou maior confusão perceptivo-auditiva que os demais grupos e FV identificou melhor as vozes sintetizadas. Os fonoaudiólogos classificaram corretamente quase todos os tipos de desvios vocais sintetizados nas vozes femininas; para as vozes masculinas isso aconteceu apenas para a rugosidade; a soprosidade e tensão masculinas foram classificados quase sempre como rugosidade. Houve fator de aprendizagem apenas no grupo FV, que identificou mais corretamente as últimas vozes apresentadas. Conclusão: O sintetizador mostrou-se bom, pois produziu vozes com caraterísticas muito similares às de pacientes disfônicos, confundindo todos os grupos de ouvintes. FV teve melhor habilidade em identificar corretamente a natureza das vozes provavelmente por ser o grupo dos especialistas. O sintetizador mostrou-se mais natural para simular o desvio vocal de soprosidade e simulou bem os tipos de desvios vocais femininos. No entanto, para a voz masculina, será necessário ajustar a simulação de soprosidade e tensão, que foram identificados como rugosidade.