Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Catolica de Pelotas
Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758 |
Resumo: | A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection). |