Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.
Main Author: | |
---|---|
Publication Date: | 1998 |
Format: | Master thesis |
Language: | por |
Source: | Biblioteca Digital de Teses e Dissertações da USP |
Download full: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/ |
Summary: | Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento. |
id |
USP_eaad9f8911f3188b66366abdd69dc66b |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-14112024-124346 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais.Untitled in englishArtificial neural networksRedes neurais artificiaisMesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento.Despite the growth of researches in Automatic Speaker Recognition (ASR), the best set of features was still not found. This work intended to evaluate one of the most used features in the ASR, the mel-frequency cepstral coefficients (MFCCs). The Minimal Temporal Information (MTI) technique, with different artificial neural networks, respectively the Multi-Layer Perceptron (MLP), the Radial Basis Function (RBF) and the Time-Delay Neural Network (TDNN), are also evaluated. In order to evaluate the MFCCs a new method of feature selection is proposed, the divergence \"Knock-out\", which combine the following advantages: the comparison it performs take place in features sets, instead isolated features, and its time consume is reduced. The speech database used in the tests contains sixteen phrases uttered by ten different male speakers. In order to prepare the speech segments to feed the ANN, MTIs are used. The MLP is utilized to evaluate the MFCCs calculated with different number of filters (twenty, forty, sixty, eighty, one hundred, one hundred and fifty, two hundred), and without filters, and also with the FFT, the LOG and the DCT). The results indicated that: in order to obtain good results more coefficients are necessary with a higher number of filters; the results from the sets obtained with the divergence \"Knock-out\" method are better than the ones obtained with the first n coefficients. The evaluation of these systems using MLP with telephone noise, and signal-noise ratio equals to ten dBs, shows that the best results are always obtained with the divergence \"Knock-out\" features sets. The performance of the RBF systems is much worse than the one from MLPs, in both cases. However the results obtained with the TDNN indicate that this ANN paradigm is very promising in ASR.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraMagni, André Bordin1998-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-11-14T14:48:02Zoai:teses.usp.br:tde-14112024-124346Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-11-14T14:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. Untitled in english |
title |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
spellingShingle |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. Magni, André Bordin Artificial neural networks Redes neurais artificiais |
title_short |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
title_full |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
title_fullStr |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
title_full_unstemmed |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
title_sort |
Reconhecimento automático do locutor com coeficientes Mel-Cepstrais e redes neurais artificiais. |
author |
Magni, André Bordin |
author_facet |
Magni, André Bordin |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cabral Junior, Euvaldo Ferreira |
dc.contributor.author.fl_str_mv |
Magni, André Bordin |
dc.subject.por.fl_str_mv |
Artificial neural networks Redes neurais artificiais |
topic |
Artificial neural networks Redes neurais artificiais |
description |
Mesmo com o aumento de pesquisas na área de Reconhecimento Automático do Locutor (RAL) ainda não foi atingindo um consenso de quais são e como são obtidos os parâmetros, extraídos do sinal de voz, que melhor representam um locutor. Desta forma este trabalho avalia um dos principais parâmetros utilizados, os coeficientes Mel-Cepstrais (MFCCs). Avalia-se também o desempenho das Minimal temporal Information (MTIs), com diferentes paradigmas neurais: Multi-Layer Perceptyron (MLP), Radial Basis Function (RBF) e Time-Delay Neural Network (TDNN), para o RAL no modo independente do texto. Na avaliação dos coeficientes MFCCs é proposto um novo método de seleção de features, o \"Knock-out\" de divergência, que alia as vantagens: a comparação é realizada em conjuntos de features, ao invés de features isolados; o tempo de processamento é reduzido. A base de dados utilizada nos testes é constituída por dezesseis frases foneticamente balanceadas e formada por dez locutores masculinos. As MTls são utilizadas para a montagem dos padrões de entrada das RNAs. Utilizando o MLP avaliou-se o desempenho dos MFCCs calculados com diferentes número de filtros (vinte, quarenta, sessenta, oitenta, cem, cento e cinquenta, duzentos); sem o banco de filtros, e com a FFT, o LOG, e a DCT. Destes resultados observou-se: quanto maior o número de filtros mais coeficientes são necessários para se obter um bom desempenho; e que o conjunto defeatures gerado pelo método \"Knock-out\" de divergência apresenta melhores resultados que o conjunto formados pelos n primeiros coeficientes, para maior números de filtros. Ainda utilizando o MLP avaliou-se o desempenho do sistemas com adição de ruído do tipo telefônico, com relação sinal-ruído igual a dez decibéis. Neste caso os melhores resultados foram obtidos para o conjunto de features gerados pelo método \"Knock-out\" de divergência. Na avaliação da RBF e TDNN constatou-se que o desempenho da RBF ) é inferior ao desempenho do MLP, principalmente para base de dados corrompida por ruído. Entretanto a TDNN apresentou-se como sendo uma boa alternativa, uma vez que obteve resultados similares aos resultados do MLP, consumindo um terço do tempo necessário para o treinamento. |
publishDate |
1998 |
dc.date.none.fl_str_mv |
1998-12-14 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-14112024-124346/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1826319288982568960 |