Impacto de métodos de seleção de variáveis na classificação de ataques DDoS utilizando XGBoost.

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Araujo, Pedro Henrique Hauy Netto de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-21092023-082915/
Resumo: Distributed Denial of Service (DDoS) Attacks - Ataques de Negação de Serviço Distribuídos - impõem um grande desafio para os sistemas de segurança atuais, dadas a variedade de suas implementações e as grandes escalas que podem atingir. Uma abordagem para a sua detecção precoce é o uso de técnicas de Machine Learning (ML), que criam regras de classificação do tráfego a partir de dados históricos. Contudo, diferentes tipos de dados contribuem de forma desigual para a assertividade do modelo treinado. O uso de métodos de Feature Selection (FS) - Seleção de Variáveis - como etapa de pré-processamento permite a identificação dos atributos mais relevantes para o problema em questão. Essa ação diminui o tempo de treinamento e pode melhorar o desempenho de classificadores de ataques quando variáveis ruidosas são eliminadas. Este trabalho toma como base um conjunto de dados público e o algoritmo XGBoost para mensurar o impacto de técnicas de FS no problema de classificação de ataques DDoS. São consideradas tanto técnicas independentes dos rótulos das amostras, como também métodos que se utilizam dessa informação para ranquear as variáveis em ordem de importância. O problema é analisado do ponto de vista da classificação binária e multiclasse. Também é criado um benchmark de métricas de classificação e tempos de execução. As comparações envolvem as métricas de Acurácia, Precisão, Recall e F1-score para diversos métodos de FS, além dos tempos para realização de FS e tempos para treinamento do modelo.