Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Luft, Joel Augusto |
Orientador(a): |
Susin, Altamiro Amadeu |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/204442
|
Resumo: |
A separação das fontes sonoras é uma das principais preocupações em muitas aplicações, como sistemas de comunicação, aparelhos auditivos, reconhecimento de fala, etc. Frequentemente, o número de fontes a serem separadas excede o número de microfones, tornando importante lidar com os chamados casos subdeterminados. Este trabalho propõe novos métodos para separar sinais de áudio com base na estimativa da Densidade Espectral de Potência (PSD), usando a diretividade de beamformers para estimar a PSD de cada fonte sonora. O primeiro método proposto usa a combinação de restrição não negativa com solução de mínimos quadrados para obter a densidade de potência espectral na direção de interesse. O segundo método tolera a correlação entre as fontes, diferentemente das abordagens anteriores na literatura, que tratam apenas da separação de sinais de fontes não correlacionadas. Além disso, é proposta uma terceira abordagem em que o número de fontes excede o número de microfones. Nos métodos propostos presume-se que as funções de transferência acústica (ATFs) entre fontes de som e microfones sejam conhecidas. Como as ATFs geralmente não estão disponíveis e são difíceis de obter em casos reais, as Funções de Transferência Relativa (RTFs), que podem ser obtidas diretamente dos sinais dos microfones, são usadas obtendo resultados semelhantes. Neste trabalho, também são propostos métodos para estimar as RTFs quando existem várias fontes. Um método utiliza detecção de picos em histogramas suavizados e ponderados pelas estimas de PSDs. Outro utiliza o algoritmo Fuzzy C-Means (wFCM) para enfatizar pistas confiáveis no processo de agrupamento, empregando pesos baseados na distribuição de probabilidade da fala, a qual é bem descrita pela Distribuição Laplaciana (LD). Os resultados da simulação mostram que os métodos propostos superam outras abordagens e também suportam correlação dos sinais podendo lidar com configurações subdeterminadas. |