Classificação de sinais de voz afetada por patologia nas pregas vocais utilizando reconstrução do espaço de fases.
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12705 |
Resumo: | Nos últimos anos, várias pesquisas na área de Processamento Digital da Voz vêm sendo realizadas com o objetivo de avaliar a qualidade da voz do paciente e auxiliar um especialista no diagnóstico de patologias nas pregas vocais. A análise acústica da voz pode ser uma ferramenta eficiente para o diagnóstico de patologias e possui como vantagem o fato de não ser invasiva. Neste contexto, esta tese teve como objetivo principal a investigação e a criação de métodos para a classificação de vozes afetadas por patologias nas pregas vocais. Para tanto, objetivou-se verificar a utilização da análise não linear do sinal de voz para caracterizar patologias das pregas vocais, a partir de imagens obtidas de técnicas da Teoria do Caos. Para este fim, foram estudadas 5 classes de patologias das pregas vocais: Paralisia, Edema, Nódulo, Pólipo e Queratose. Adicionalmente, foi estudada uma classe denominada Lesão Benigna nas pregas vocais, consistindo no agrupamento de sinais de voz afetada por nódulo, pólipo e cisto. Na pesquisa, foram utilizadas duas bases de dados: Massachusetts Eye and Ear Infirmary (MEEI) e Saarbruecken Voice Database (SVD). A etapa de pré-processamento consistiu no aumento da quantidade de sinais utilizando o método de Time Stretching, a segmentação e o janelamento dos sinais. Na fase de extração de características, foram obtidas imagens de cada segmento do sinal a partir das trajetórias do espaço de fase reconstruído do sinal. As imagens foram utilizadas para treinar duas Redes Neurais Convolucionais (Convolutional Neural Network - CNN), uma com e outra sem uma camada bottleneck. A partir da camada bottleneck, foram obtidos vetores de características, que foram usados para treinar uma máquina de Vetores de Suporte (Support Vector Machine - SVM). Os resultados da SVM foram comparados com os resultados da CNN sem a camada bottleneck. Foram realizadas 14 classificações: Normal versus Patologia; 10 classificações pareadas entre as 5 classes de patologias; e 3 classificações entre as classes Paralisia, Edema e Queratose versus Lesão Benigna. A classificação Normal versus Patologia proporcionou 100% de acerto, tanto para CNN quanto para SVM. A classificação nódulo versus pólipo proporcionou acurácias acima de 90%, e as outras classificações proporcionaram resultados entre 70 e 90%. Foi observado que, de uma forma geral, classificações utilizando aumento de dados no conjunto de treinamento tiveram resultados melhores que classificações sem a utilização de tal aumento, exceto em classificações envolvendo a classe pólipo. Na maioria dos casos, a utilização de tamanho de segmentos de 10 ciclos de pitch, para a formação das imagens, proporcionou melhores resultados que o tamanho clássico de 20 ms. No geral, a classificação utilizando bottleneck e SVM proporcionou resultados superiores àqueles utilizando apenas CNN. A abordagem proposta se mostrou promissora para a área de reconhecimento de patologias nas pregas vocais pela voz, uma vez que proporcionou bons resultados ao classificar diferentes tipos de patologia, que é uma tarefa árdua devido ao caráter ruidoso do sinal de voz afetado por patologia. |