Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.

Bibliographic Details
Main Author: Magni, André Bordin
Publication Date: 1998
Format: Master thesis
Language: por
Source: Biblioteca Digital de Teses e Dissertações da USP
Download full: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/
Summary: Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento.
id USP_eaad9f8911f3188b66366abdd69dc66b
oai_identifier_str oai:teses.usp.br:tde-14112024-124346
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.Untitled in englishArtificial neural networksRedes neurais artificiaisMesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento.Despite the growth of researches in Automatic Speaker Recognition (ASR), the best set of features was still not found. This work intended to evaluate one of the most used features in the ASR, the mel-frequency cepstral coefficients (MFCCs). The Minimal Temporal Information (MTI) technique, with different artificial neural networks, respectively the Multi-Layer Perceptron (MLP), the Radial Basis Function (RBF) and the Time-Delay Neural Network (TDNN), are also evaluated. In order to evaluate the MFCCs a new method of feature selection is proposed, the divergence \"Knock-out\", which combine the following advantages: the comparison it performs take place in features sets, instead isolated features, and its time consume is reduced. The speech database used in the tests contains sixteen phrases uttered by ten different male speakers. In order to prepare the speech segments to feed the ANN, MTIs are used. The MLP is utilized to evaluate the MFCCs calculated with different number of filters (twenty, forty, sixty, eighty, one hundred, one hundred and fifty, two hundred), and without filters, and also with the FFT, the LOG and the DCT). The results indicated that: in order to obtain good results more coefficients are necessary with a higher number of filters; the results from the sets obtained with the divergence \"Knock-out\" method are better than the ones obtained with the first n coefficients. The evaluation of these systems using MLP with telephone noise, and signal-noise ratio equals to ten dBs, shows that the best results are always obtained with the divergence \"Knock-out\" features sets. The performance of the RBF systems is much worse than the one from MLPs, in both cases. However the results obtained with the TDNN indicate that this ANN paradigm is very promising in ASR.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraMagni, André Bordin1998-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-11-14T14:48:02Zoai:teses.usp.br:tde-14112024-124346Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-11-14T14:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
Untitled in english
title Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
spellingShingle Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
Magni, André Bordin
Artificial neural networks
Redes neurais artificiais
title_short Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
title_full Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
title_fullStr Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
title_full_unstemmed Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
title_sort Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
author Magni, André Bordin
author_facet Magni, André Bordin
author_role author
dc.contributor.none.fl_str_mv Cabral Junior, Euvaldo Ferreira
dc.contributor.author.fl_str_mv Magni, André Bordin
dc.subject.por.fl_str_mv Artificial neural networks
Redes neurais artificiais
topic Artificial neural networks
Redes neurais artificiais
description Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento.
publishDate 1998
dc.date.none.fl_str_mv 1998-12-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1826319288982568960