Detecção e classificação de categorias de disfonias com redes neurais convolucionais
Ano de defesa: | 2023 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Curitiba |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/31085 |
Resumo: | Pesquisas conduzidas ao redor do mundo mostram que entre 16,9% e 35,8% da população possui ou afirmam já terem possuído algum grau de distúrbio vocal. Entretanto, indisponibilidades de profissionais treinados ou equipamentos para diagnóstico, dentre outros fatores, podem resultar no não-tratamento de pacientes e consequente piora em suas qualidades de vida. Avanços recentes na ciência computacional possibilitaram a utilização de metodologias de detecção automática de disfonias baseadas em aprendizado de máquina, como forma de complementar a avaliação clínica. No entanto, tais metodologias exploram apenas a distinção binária entre vozes saudáveis e com disfonia, ou realizam uma etapa de classificação limitada às disfonias com maior representatividade nas bases de dados. Por conta disso, o presente trabalho avalia uma nova metodologia de classificação de disfonias, a partir do seu agrupamento em três categorias: Disfonias Funcionais, Disfonias Orgânicas, e Disfonias Organofuncionais. Este agrupamento foi aplicado às gravações presentes em duas bases de dados: a Base de dados de voz de Saarbruecken, do inglês Saarbruecken Voice Database (SVD), e o Banco de Dados de Avaliação Avançada da Função de Voz, do inglês Advanced Voice Function Assessment Database (AVFAD). Após este agrupamento, foram realizadas etapas de extração de características dos sinais de áudio, com a utilização de espectrogramas, e classificação, com a utilização de redes neurais convolucionais. A partir dos resultados obtidos, pode-se afirmar que o método possui eficácia para a detecção de disfonias orgânicas e organofuncionais, atingindo acurácias de teste de 76,1% e 72,2%, respectivamente, para a SVD, e 82,8% e 77,3% para a AVFAD. Porém, não foi possível distinguir com êxito disfonias funcionais, por estarem pouco representadas nas bases de dados, o que impactou negativamente o desempenho geral do classificador, que foi de 53,2% para os dados da SVD, e 59,8% para os da AVFAD. Contudo, um aperfeiçoamento desta metodologia pode ampliar a capacidade de detecção de disfonias funcionais, aprimorando seu desempenho. |