Comparação do desempenho de classificadores multiclasses em dados químicos: abordando o problema de sobreajuste com o teste de permutação

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Andrade, Bárbara Martins de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Instituto de Química
Brasil
UERJ
Programa de Pós-Graduação em Engenharia Química
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bdtd.uerj.br/handle/1/16408
Resumo: O objetivo deste trabalho foi aplicar técnicas de reconhecimento de padrões em três conjuntos de dados disponíveis na literatura. O conjunto de dados denominado Glass Identification Dataset foi avaliado usando-se os modelos de classificação: Análise Discriminante Linear, Análise Discriminante Regularizada, Análise Discriminante de Mistura, Análise Discriminante de Mínimos Quadrados Parciais, Redes Neurais Artificiais, Máquina de Vetor de Suporte com função de núcleo radial, K-vizinhos mais próximos, Naive Bayes, Vetor de Quantização de Aprendizagem de Máquina, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória, C5.0 e Generalized Boosted Machine usando-se como parâmetros de mérito a exatidão e o índice Kappa. O classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o único modelo que forneceu 100% de exatidão e o índice Kappa igual a 1,000. Tendo em vista o resultado obtido, foi proposta uma nova abordagem para o teste de permutação para verificar a ocorrência de sobreajuste do modelo, a qual indicou a inexistência do sobreajuste. O conjunto de dados denominado Wine Quality Dataset foi dividido em Vinho Tinto e Vinho Branco. Para os dois conjuntos de vinho foram testados os modelos: Regressão por Mínimos Quadrados Parciais, Máquina de Vetor de Suporte com função de núcleo radial, Máquina de Vetor de Suporte com função linear, K-vizinhos mais próximos, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória e Generalized Boosted Machine usando-se como parâmetros de mérito o erro absoluto médio (MAE), a raiz do erro quadrático médio (RMSE) e o coeficiente de determinação (R2). Para todos os modelos testados, os resultados foram insatisfatórios. Em função dos resultados dos modelos de regressão preditivos, foram empregados os mesmos modelos de classificação usados no conjunto de dados Glass Identification Dataset. Mais uma vez, o classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o modelo com melhor desempenho indicando igual a exatidão de 99,54% e 99,33% e o índice Kappa igual a 0,9932 e 0,9896 para os Vinhos Branco e Tinto, respectivamente. Os resultados obtidos superaram a classificação dos trabalhos publicados anteriormente na literatura. Portanto, os experimentos computacionais mostram que o Vetor de Quantização de Aprendizagem de Máquina foi o único método capaz de classificar corretamente todos os três conjuntos de dados, atingindo a exatidão de aproximadamente 100% e o índice Kappa perfeito. Os resultados mostraram que o problema do excesso de ajuste estava ausente, o que foi confirmado pelo teste de Wilcoxon pareado