Separação de sinais de áudio através da densidade de potência espectral direcional

Bibliographic Details
Main Author: Luft, Joel Augusto
Publication Date: 2019
Format: Doctoral thesis
Language: por
Source: Biblioteca Digital de Teses e Dissertações da UFRGS
Download full: http://hdl.handle.net/10183/204442
Summary: A separação das fontes sonoras é uma das principais preocupações em muitas aplicações, como sistemas de comunicação, aparelhos auditivos, reconhecimento de fala, etc. Frequentemente, o número de fontes a serem separadas excede o número de microfones, tornando importante lidar com os chamados casos subdeterminados. Este trabalho propõe novos métodos para separar sinais de áudio com base na estimativa da Densidade Espectral de Potência (PSD), usando a diretividade de beamformers para estimar a PSD de cada fonte sonora. O primeiro método proposto usa a combinação de restrição não negativa com solução de mínimos quadrados para obter a densidade de potência espectral na direção de interesse. O segundo método tolera a correlação entre as fontes, diferentemente das abordagens anteriores na literatura, que tratam apenas da separação de sinais de fontes não correlacionadas. Além disso, é proposta uma terceira abordagem em que o número de fontes excede o número de microfones. Nos métodos propostos presume-se que as funções de transferência acústica (ATFs) entre fontes de som e microfones sejam conhecidas. Como as ATFs geralmente não estão disponíveis e são difíceis de obter em casos reais, as Funções de Transferência Relativa (RTFs), que podem ser obtidas diretamente dos sinais dos microfones, são usadas obtendo resultados semelhantes. Neste trabalho, também são propostos métodos para estimar as RTFs quando existem várias fontes. Um método utiliza detecção de picos em histogramas suavizados e ponderados pelas estimas de PSDs. Outro utiliza o algoritmo Fuzzy C-Means (wFCM) para enfatizar pistas confiáveis no processo de agrupamento, empregando pesos baseados na distribuição de probabilidade da fala, a qual é bem descrita pela Distribuição Laplaciana (LD). Os resultados da simulação mostram que os métodos propostos superam outras abordagens e também suportam correlação dos sinais podendo lidar com configurações subdeterminadas.
id URGS_036582cf784c06c84e8f10ac67df09f6
oai_identifier_str oai:www.lume.ufrgs.br:10183/204442
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Luft, Joel AugustoSusin, Altamiro Amadeu2020-01-17T04:10:10Z2019http://hdl.handle.net/10183/204442001110034A separação das fontes sonoras é uma das principais preocupações em muitas aplicações, como sistemas de comunicação, aparelhos auditivos, reconhecimento de fala, etc. Frequentemente, o número de fontes a serem separadas excede o número de microfones, tornando importante lidar com os chamados casos subdeterminados. Este trabalho propõe novos métodos para separar sinais de áudio com base na estimativa da Densidade Espectral de Potência (PSD), usando a diretividade de beamformers para estimar a PSD de cada fonte sonora. O primeiro método proposto usa a combinação de restrição não negativa com solução de mínimos quadrados para obter a densidade de potência espectral na direção de interesse. O segundo método tolera a correlação entre as fontes, diferentemente das abordagens anteriores na literatura, que tratam apenas da separação de sinais de fontes não correlacionadas. Além disso, é proposta uma terceira abordagem em que o número de fontes excede o número de microfones. Nos métodos propostos presume-se que as funções de transferência acústica (ATFs) entre fontes de som e microfones sejam conhecidas. Como as ATFs geralmente não estão disponíveis e são difíceis de obter em casos reais, as Funções de Transferência Relativa (RTFs), que podem ser obtidas diretamente dos sinais dos microfones, são usadas obtendo resultados semelhantes. Neste trabalho, também são propostos métodos para estimar as RTFs quando existem várias fontes. Um método utiliza detecção de picos em histogramas suavizados e ponderados pelas estimas de PSDs. Outro utiliza o algoritmo Fuzzy C-Means (wFCM) para enfatizar pistas confiáveis no processo de agrupamento, empregando pesos baseados na distribuição de probabilidade da fala, a qual é bem descrita pela Distribuição Laplaciana (LD). Os resultados da simulação mostram que os métodos propostos superam outras abordagens e também suportam correlação dos sinais podendo lidar com configurações subdeterminadas.Sound sources separation is a main concern for many applications such as communication systems, hearing aids, speech recognition, etc. Frequently, the number of sources to be separated exceeds the number of microphones, and it is important to deal with the so-called underdetermined cases. This work proposes new methods for separating audio signals based on the Power Spectral Density (PSD) estimation using the directivity of the beamformers to estimate the PSD of each sound source. The first proposed method uses the combination of non-negative constraint with least squares solution to obtain the spectral power density in the direction of interest. The second method tolerates correlation between the sources, differently from previous approaches in the literature that address only the separation of signals from uncorrelated sources. Additionally, a third approach where the number of sources exceeds the number of microphones is proposed. The Acoustic Transfer Functions (ATFs) between sound sources and microphones are assumed to be known in the proposed methods. Since ATFs are often unavailable and are hard to obtain in real cases, the Relative Transfer Functions (RTFs), which can be obtained directly from the microphone signals, are used with similar results. In this work, we also propose methods to estimate the RTFs when there are several sources. One uses peak detection in smoothed histograms weighted by the PSD estimates. Another uses a weighted Fuzzy C-Means (wFCM) algorithm to emphasize reliable clues in the clustering process employing weights based on the speech probability distribution, which is well described by Laplacian Distribution (LD). The simulation results show that the proposed methods outperform other approaches and, also, support signal correlation and can handle underdetermined configurations.application/pdfporDensidadeAnálise espectralFunção de transferênciaSource separationBeamformingPower spectral densityRelative transfer functionSeparação de sinais de áudio através da densidade de potência espectral direcionalinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia ElétricaPorto Alegre, BR-RS2019doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001110034.pdf.txt001110034.pdf.txtExtracted Texttext/plain172773http://www.lume.ufrgs.br/bitstream/10183/204442/2/001110034.pdf.txtea4409fbd7dda4ba38b681369c9bbdb5MD52ORIGINAL001110034.pdfTexto completoapplication/pdf1253372http://www.lume.ufrgs.br/bitstream/10183/204442/1/001110034.pdfa5e880ed1878c80fbcb7fae008bc885aMD5110183/2044422020-01-18 05:16:10.0823oai:www.lume.ufrgs.br:10183/204442Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-01-18T07:16:10Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Separação de sinais de áudio através da densidade de potência espectral direcional
title Separação de sinais de áudio através da densidade de potência espectral direcional
spellingShingle Separação de sinais de áudio através da densidade de potência espectral direcional
Luft, Joel Augusto
Densidade
Análise espectral
Função de transferência
Source separation
Beamforming
Power spectral density
Relative transfer function
title_short Separação de sinais de áudio através da densidade de potência espectral direcional
title_full Separação de sinais de áudio através da densidade de potência espectral direcional
title_fullStr Separação de sinais de áudio através da densidade de potência espectral direcional
title_full_unstemmed Separação de sinais de áudio através da densidade de potência espectral direcional
title_sort Separação de sinais de áudio através da densidade de potência espectral direcional
author Luft, Joel Augusto
author_facet Luft, Joel Augusto
author_role author
dc.contributor.author.fl_str_mv Luft, Joel Augusto
dc.contributor.advisor1.fl_str_mv Susin, Altamiro Amadeu
contributor_str_mv Susin, Altamiro Amadeu
dc.subject.por.fl_str_mv Densidade
Análise espectral
Função de transferência
topic Densidade
Análise espectral
Função de transferência
Source separation
Beamforming
Power spectral density
Relative transfer function
dc.subject.eng.fl_str_mv Source separation
Beamforming
Power spectral density
Relative transfer function
description A separação das fontes sonoras é uma das principais preocupações em muitas aplicações, como sistemas de comunicação, aparelhos auditivos, reconhecimento de fala, etc. Frequentemente, o número de fontes a serem separadas excede o número de microfones, tornando importante lidar com os chamados casos subdeterminados. Este trabalho propõe novos métodos para separar sinais de áudio com base na estimativa da Densidade Espectral de Potência (PSD), usando a diretividade de beamformers para estimar a PSD de cada fonte sonora. O primeiro método proposto usa a combinação de restrição não negativa com solução de mínimos quadrados para obter a densidade de potência espectral na direção de interesse. O segundo método tolera a correlação entre as fontes, diferentemente das abordagens anteriores na literatura, que tratam apenas da separação de sinais de fontes não correlacionadas. Além disso, é proposta uma terceira abordagem em que o número de fontes excede o número de microfones. Nos métodos propostos presume-se que as funções de transferência acústica (ATFs) entre fontes de som e microfones sejam conhecidas. Como as ATFs geralmente não estão disponíveis e são difíceis de obter em casos reais, as Funções de Transferência Relativa (RTFs), que podem ser obtidas diretamente dos sinais dos microfones, são usadas obtendo resultados semelhantes. Neste trabalho, também são propostos métodos para estimar as RTFs quando existem várias fontes. Um método utiliza detecção de picos em histogramas suavizados e ponderados pelas estimas de PSDs. Outro utiliza o algoritmo Fuzzy C-Means (wFCM) para enfatizar pistas confiáveis no processo de agrupamento, empregando pesos baseados na distribuição de probabilidade da fala, a qual é bem descrita pela Distribuição Laplaciana (LD). Os resultados da simulação mostram que os métodos propostos superam outras abordagens e também suportam correlação dos sinais podendo lidar com configurações subdeterminadas.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-01-17T04:10:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/204442
dc.identifier.nrb.pt_BR.fl_str_mv 001110034
url http://hdl.handle.net/10183/204442
identifier_str_mv 001110034
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/204442/2/001110034.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/204442/1/001110034.pdf
bitstream.checksum.fl_str_mv ea4409fbd7dda4ba38b681369c9bbdb5
a5e880ed1878c80fbcb7fae008bc885a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831314603839062016