Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Yoshimura, Guilherme Jun |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-12052020-005232/
|
Resumo: |
Este trabalho apresenta dois classificadores originais para sinais de voz que objetivam auxiliar profissionais da fonoaudiologia no diagnóstico de pessoas com alterações de fala. Comparamos os classificadores propostos com três técnicas conhecidas: Modelos de Markov Escondidos (HMM), bag-of-words e classificador baseado em Earth Mover\'s Distance (EMD). Utilizamos três bases de dados, sendo duas disponibilizadas pelo Departamento de Fisioterapia, Fonoaudiologia e Terapia Ocupacional (FOFITO) da Faculdade de Medicina da Universidade de São Paulo (FMUSP) que contêm gravações de crianças que têm alterações de fala que ocorrem durante o desenvolvimento da fala, e a terceira é a base pública UA-Speech que contém gravações de indíviduos adultos com disartria. O intuito deste trabalho é criar classificadores de fala capazes de distinguir um áudio sem alteração de fala de um áudio com alteração de fala. Além de estudar as técnicas conhecidas citadas anteriormente, propusemos dois classificadores baseados em Coeficientes Mel-Cepstrais (MFCC). O primeiro utiliza uma reformulação da distância DTW entre registros de fala e conjuntos de gravações sem alteração de fala, enquanto o outro combina a informação de curvas de dissimilaridades construídas a partir da comparação do registro de fala a ser classificado com as gravações de referência (sem alterações de fala). |