Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Fontes, Juliana de Abreu |
Orientador(a): |
Anzanello, Michel José |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/211247
|
Resumo: |
Técnicas espectroscópicas têm sido amplamente empregadas na resolução de problemas referentes à verificação de autenticidade e padrões de qualidade de produtos. No entanto, tais técnicas tendem a gerar um elevado número de variáveis (comprimentos de onda – COs) ruidosas e altamente correlacionadas, reforçando a importância do uso de técnicas que permitam remover as variáveis não informativas e garantir a construção de modelos consistentes de classificação e predição, diminuindo tanto o risco de inferências como o custo computacional. Esta dissertação propõe sistemáticas para seleção de COs com vistas à classificação de produtos e predição de propriedades químicas.Os métodos aqui propostos mesclam diferentes técnicas de aprendizado de máquina para definir os subconjuntos de variáveis mais importantes para as predições. Para tanto, inicialmente faz-se uma investigação sobre métodos de seleção de variáveis por meio de uma pesquisa bibliográfica. Em seguida, visando predizer propriedades químicas das amostras de misturas de combustível, faz-se uso de conceitos químicos advindos da Lei de Lambert-Beer para a geração de índices de importância de variáveis; subconjuntos de variáveis são então construídos por meio de uma abordagem direta com redes neurais artificiais (Artificial Neural Networks– ANN). Por fim, utiliza-se o método estatístico qui-quadrado (2) combinado com a ferramenta de classificação floresta aleatória (Random Forest– RF) para selecionar o subconjunto de COs que resulte na maior acurácia média com vistas à classificação de amostras de alimentos e drogas (lícitas e ilícitas) em autênticas ou não-autênticas, segundo sua identidade e/ou origem.A aplicação dos métodos propostosem bancos reais possibilitou predições mais robustas, bem como redução do número de variáveis retidas nos modelos. |