Detalhes bibliográficos
Ano de defesa: |
1998 |
Autor(a) principal: |
Timoszczuk, Antonio Pedro |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-08102024-151732/
|
Resumo: |
As Redes Neurais Artificiais- RNAs- aplicadas ao Reconhecimento Automático do Locutor- RAL- são objeto de constante pesquisa na atualidade. Neste trabalho é avaliado o potencial de aplicação da rede neural do tipo Radial Basis Function- RBF- como classificador na tarefa de reconhecimento do locutor. Após uma exposição de tópicos considerados importantes para o entendimento do RAL e das RNAs, é definida a configuração do reconhecedor que utiliza como características extraídas das locuções, os coeficientes Mel-Cepstrais. Uma nova forma de organização dos segmentos temporais do sinal de voz denominada de Minimal Temporal Information- MTI - é definida e utilizada para a montagem dos padrões apresentados para o classificador. Para a realização dos testes são utilizadas duas bases de dados distintas, contendo frases foneticamente balanceadas e formadas por dezesseis e dez locutores respectivamente. Uma rede neural do tipo perceptron multicamada (MLP) é utilizada como classificador clássico para a comparação dos resultados obtidos com a RBF nas tarefas de reconhecimento do locutor de forma dependente e independente do texto. A viabilidade da RBF como classificador foi constatada e os resultados obtidos apontam como vantagens o menor tempo gasto para o treinamento e menor complexidade da rede, quando comparada com o método clássico. A utilização das MTIs em conjunto com a RBF proporcionou umamelhoria nas taxas de acerto do reconhecedor e na capacidade de discriminação, tornando-as promissoras como representações temporais dos locutores. |