Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Neves, Eder Pereira |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/239139
|
Resumo: |
Neste trabalho apresenta-se um método para fazer a predição da pontuação MOS - Mean Opinion Score para a medida objetiva intrusiva, ITU-T P.862 - PESQ utilizando uma técnica de processamento de imagem do espectro do sinal de voz. O método foi construído por meio de um processo sistemático simulado por sinais limpos e contaminados com diferentes tipos de ruídos encontrados em situações cotidianas. Cada sinal ´e convertido para o domínio da frequência, transformado em uma matriz e as bandas críticas são separadas utilizando um modelo perceptual. Em seguida, a imagem gerada é quantificada e o espectro de potência de cada pixel é convertido em um nível de cinza e analisado por meio de uma técnica baseada na matriz de coocorrência de níveis de cinza nas suas quatro principais direções, gerando os 19 fatores de Haralick. Dentre o conjunto de fatores três foram selecionados para constituir as entradas do modelo, proporcionando 969 composições para cada direção da matriz de coocorrência. A proposta utiliza uma abordagem de inferência do tipo Sugeno de primeira ordem, implementada no Sistema de Inferência Neuro Fuzzy Adaptativa - ANFIS. Comprovou-se que o desempenho preditivo está ligado à escolha de um algoritmo de fuzzificação do espaço de entrada. Desta forma, foi analisado o comportamento do particionamento Grid e os agrupamentos Subtractive e Fuzzy C-Means - FCM. Constatou-se que o algoritmo FCM proporcionou os melhores resultados para três variáveis linguísticas, sendo avaliado pelas métricas MAPE, RMSE e R2. Nas simulações ficou evidente que o modelo atua efetivamente em qualquer ambiente ruidoso, proporcionando resultados satisfatórios independente da quantidade de sinais a serem analisados. |