Detalhes bibliográficos
Ano de defesa: |
1998 |
Autor(a) principal: |
Magni, André Bordin |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/
|
Resumo: |
Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento. |