Redução de dimensionalidade para dados espectrais colineares

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Soares, Felipe
Orientador(a): Anzanello, Michel José
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
PCA
MDS
Link de acesso: http://hdl.handle.net/10183/248647
Resumo: Na análise de dados, a identificação das variáveis relevantes para uma determinada tarefa de aprendizagem da máquina pode ajudar a construir modelos mais precisos, robustos e explicáveis. Embora avanços recentes em redes neurais, como autoencoders e redes neurais profundas, tenham proporcionado abordagens que implicitamente realizam a redução de dimensionalidade, tais modelos usualmente requerem grandes tamanhos de amostra e podem não ser explicáveis, podendo ter aplicabilidade restrita em diversos tipos de bancos de dados, como os de espectroscopia. Bancos de dados espectroscópicos têm como característica um elevado número de variáveis que tendem a ser colineares e geralmente se apoiam em menor número de amostras do que variáveis, o que pode deteriorar o desempenho de diversas técnicas multivariadas aplicadas a tais dados. Desta forma, esta tese propõe métodos de seleção de variáveis aplicados a dados espectroscópicos com o objetivo de realizar agrupamento, classificação e regressão em conjuntos de dados abrangendo diferentes áreas. Esta tese é composta de quatro artigos, três de pesquisa aplicada, e uma comunicação. No primeiro artigo, um índice de importância de variáveis (IIV) é proposto para selecionar os comprimentos de onda mais relevantes para o agrupamento de amostras de acordo com suas similaridades. O IIV proposto é baseado na combinação do escalonamento multidimensional (para redução de dimensionalidade) e análise de Procrustes para derivar uma matriz de projeção. No segundo artigo, com o objetivo de selecionar variáveis para um problema de regressão, outro VII é derivado com base nos pesos da matriz de projeção obtida a partir de uma redução de dimensão através da regressão inversa por fatias localizadas (LSIR). No terceiro artigo, uma comunicação relacionada a um artigo publicado recentemente, foram apontadas falhas de projeto em um experimento com o objetivo de classificar espectros Raman de plasma sanguíneo de pacientes positivos para COVID e controles. Esta comunicação também estabeleceu baselines não enviesados para o quarto artigo, no qual o algoritmo de Máxima Relevância Mínima Redundância (mRMR) para seleção de variáveis é melhorado a fim de levar em conta as dependências lineares no conjunto de variáveis selecionadas. O aprimoramento proposto, denominado PCA-mRMR, é aplicado ao mesmo conjunto de dados do terceiro artigo com propósito de classificação. Em todos os três artigos de pesquisa, os métodos propostos foram comparados com abordagens de seleção de variáveis já existentes e seu desempenho foi avaliado.