SSAFXGB: classificação semi-supervisionada multi-classe de fluxo de dados com a utilização do XGBOOST

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Policarpo, Deividy Amorim
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.udesc.br/handle/UDESC/11376
Resumo: O surgimento de novas tecnologias estão aumentando o volume de dados criados através de fluxos (data streaming), apresentando características, como instâncias não rotuladas e mudança de conceitos, que requerem o desenvolvimento de novas abordagens para realizar sua análise. No entanto, existem poucos estudos que propuseram algoritmos para lidar com a classificação multi-classe, semi-supervisionada, em fluxos de dados com mudança de conceito. As propostas existentes possuem baixo desempenho quanto ao seu tempo de execução. Portanto, este trabalho propõe o SSAFXGB, um algoritmo adaptativo semi-supervisionado para classificação multi-classe de fluxos de dados com instâncias parcialmente rotuladas e com suporte à mudança de conceito. O XGBoost foi usado como classificador base, e foi estendido para suportar o aprendizado semi-supervisionado por meio de wrappers. Neste contexto, foram implementados os métodos 1NN e KNN, com a capacidade adicional de incorporar outros classificadores conforme necessário para atender às demandas específicas de diferentes problemas. Além disso, foi integrado suporte para geração de super amostragem como uma estratégia alternativa para abordar o desbalanceamento de classes, potencializando a eficácia do modelo em cenários com distribuições de classe desiguais. Os resultados mostram que a solução proposta apresentou melhor acurácia em todos os datataset's avaliados com média de quase 20 pontos percentuais melhor do que seu equivalente da literatura, e em comparação com os métodos clássicos para fluxo a presente proposta ficou consistentemente em primeiro colocado no ranking das métricas avaliadas (Acurácia, Kappa e F1) em todos dataset's e cenários elaborados, com boa performance computacional.