Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Souza, Juliana da Cruz
 |
Orientador(a): |
Silva, Edvan Cirino da
 |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal da Paraíba
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Química
|
Departamento: |
Química
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufpb.br/jspui/handle/123456789/32100
|
Resumo: |
O uso da Análise Discriminante Linear (LDA) em modelagem de classificação multivariada permite a construção de modelos no domínio dos dados originais, o que possibilita a realização de inferência química direta dos resultados. Entretanto, essa técnica requer uma baixa dimensionalidade dos dados e produz modelos com problemas de generalização quando existe uma alta multicolinearidade entre as variáveis. Para superar esses problemas, o uso de algoritmos de seleção de variáveis tem se mostrado muito eficiente especialmente quando dados UV-Vis, NIR, etc, são usados. Nesse contexto, o uso de algoritmos bio-inspirados (a exemplo do algoritmo genético-GA) tem permitido a realização bem-sucedida de seleção de variáveis. No presente trabalho, propõe-se o algoritmo inspirado no comportamento dos morcegos (Bat Algorithm-BA) para a seleção de variáveis em modelagem via LDA. O algoritmo proposto, denominado aqui BA-LDA, utiliza uma função de custo associada ao risco médio de classificação incorreta (Gcost), a qual foi implementada no código do seu programa escrito em Matlab. O desempenho do BA-LDA foi avaliado em quatro estudos de caso, envolvendo o emprego de dados espectrométricos de massas (MS), NIR, UV-Vis e em dados com informação simulada. Para cada conjunto de dados analisados, os parâmetros do BA-LDA foram otimizados usando um planejamento fatorial fracionário 24-1. Os dados MS foram provenientes de análises de 216 amostras de soro de pacientes com e sem câncer de ovário. Os dados NIR foram obtidos na análise de 60 amostras de cafés pertencentes a duas classes (gourmet e tradicionais). Para obtenção de dados UV-Vis, foram registrados espectros de amostras de óleos vegetais pertencentes a quatro classes, a saber: soja, canola, milho e girassol. Para o estudo com uma classe de amostras simuladas, foram empregados dados NIR de diesel. O desempenho do BA-LDA foi comparado ao obtido com os algoritmos GA-LDA e SPA-LDA usados para seleção de variáveis e com as técnicas de análise discriminante por mínimos quadrados parciais (PLS-DA) e modelagem independente e flexível por analogia de classe (SIMCA). O algoritmo proposto selecionou 11, 3, 7 e 9 variáveis e obteve as taxas de classificação correta (TCC) de 93, 100, 100 e 100 % na classificação baseada nos dados de, respectivamente, MS, NIR, UV-Vis e da classe simulada (NIR). No conjunto de dados MS, o BA-LDA superou o desempenho do SPA-LDA (79,1 % de TCC) e GA-LDA (88.4 % de TCC ), porém foi inferior ao do algoritmo PLS-DA que apresentou 98% de TCC. Para os demais conjuntos de dados, a performance do BA-LDA foi comparável ao desempenho dos algoritmos clássicos. Em todos os estudos de caso, o BA-LDA superou o desempenho do SIMCA. Ademais, o BA-LDA se mostrou menos susceptível ao ruído adicionado aos espectros das amostras de teste do conjunto de dados simulados. Visto que o BA-LDA é estocástico, seu principal diferencial é a convergência e robustez que demonstrou em todos os conjuntos de dados, nos quais as variáveis selecionadas possibilitaram uma interpretação química segura. |