Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
Ano de defesa: | 2023 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso embargado |
Idioma: | por |
Instituição de defesa: |
Universidade Estadual da Paraíba
Pró-Reitoria de Pós-Graduação e Pesquisa - PRPGP Brasil UEPB Programa de Pós-Graduação em Química - PPGQ |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.bc.uepb.edu.br/jspui/handle/tede/4730 |
Resumo: | A seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade. |