Processamento de fala para triagem de distúrbios fonológicos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Yoshimura, Guilherme Jun
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-12052020-005232/
Resumo: Este trabalho apresenta dois classificadores originais para sinais de voz que objetivam auxiliar profissionais da fonoaudiologia no diagnóstico de pessoas com alterações de fala. Comparamos os classificadores propostos com três técnicas conhecidas: Modelos de Markov Escondidos (HMM), bag-of-words e classificador baseado em Earth Mover\'s Distance (EMD). Utilizamos três bases de dados, sendo duas disponibilizadas pelo Departamento de Fisioterapia, Fonoaudiologia e Terapia Ocupacional (FOFITO) da Faculdade de Medicina da Universidade de São Paulo (FMUSP) que contêm gravações de crianças que têm alterações de fala que ocorrem durante o desenvolvimento da fala, e a terceira é a base pública UA-Speech que contém gravações de indíviduos adultos com disartria. O intuito deste trabalho é criar classificadores de fala capazes de distinguir um áudio sem alteração de fala de um áudio com alteração de fala. Além de estudar as técnicas conhecidas citadas anteriormente, propusemos dois classificadores baseados em Coeficientes Mel-Cepstrais (MFCC). O primeiro utiliza uma reformulação da distância DTW entre registros de fala e conjuntos de gravações sem alteração de fala, enquanto o outro combina a informação de curvas de dissimilaridades construídas a partir da comparação do registro de fala a ser classificado com as gravações de referência (sem alterações de fala).