Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Fontes, Juliana de Abreu
Orientador(a): Anzanello, Michel José
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/211247
Resumo: Técnicas espectroscópicas têm sido amplamente empregadas na resolução de problemas referentes à verificação de autenticidade e padrões de qualidade de produtos. No entanto, tais técnicas tendem a gerar um elevado número de variáveis (comprimentos de onda – COs) ruidosas e altamente correlacionadas, reforçando a importância do uso de técnicas que permitam remover as variáveis não informativas e garantir a construção de modelos consistentes de classificação e predição, diminuindo tanto o risco de inferências como o custo computacional. Esta dissertação propõe sistemáticas para seleção de COs com vistas à classificação de produtos e predição de propriedades químicas.Os métodos aqui propostos mesclam diferentes técnicas de aprendizado de máquina para definir os subconjuntos de variáveis mais importantes para as predições. Para tanto, inicialmente faz-se uma investigação sobre métodos de seleção de variáveis por meio de uma pesquisa bibliográfica. Em seguida, visando predizer propriedades químicas das amostras de misturas de combustível, faz-se uso de conceitos químicos advindos da Lei de Lambert-Beer para a geração de índices de importância de variáveis; subconjuntos de variáveis são então construídos por meio de uma abordagem direta com redes neurais artificiais (Artificial Neural Networks– ANN). Por fim, utiliza-se o método estatístico qui-quadrado (2) combinado com a ferramenta de classificação floresta aleatória (Random Forest– RF) para selecionar o subconjunto de COs que resulte na maior acurácia média com vistas à classificação de amostras de alimentos e drogas (lícitas e ilícitas) em autênticas ou não-autênticas, segundo sua identidade e/ou origem.A aplicação dos métodos propostosem bancos reais possibilitou predições mais robustas, bem como redução do número de variáveis retidas nos modelos.