Abordagem semi-supervisionada para detecção de domínios maliciosos em TLDs em sua primeira consulta

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silveira, Marcos Rogério [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11449/257188
Resumo: Este trabalho propõe um método para a detecção precoce de domínios maliciosos recém-registrados em Top Level Domains (TLDs). A abordagem proposta utiliza apenas a primeira consulta DNS de um domínio recém-registrado coletada de forma passiva e enriquecida pelo sistema ENTRADA, que permite a análise e o armazenamento eficiente e em larga escala desses dados. A detecção desses domínios fica a cargo de uma abordagem semi-supervisionada, composta por um módulo de aprendizado de máquina supervisionado no qual foram utilizados dois algoritmos supervisionados, e um módulo de aprendizado não supervisionado, com a utilização de um algoritmo de clusterização. As saídas de todos os modelos usados são enviadas para um modelo classificador final, com o objetivo de combinar as previsões anteriormente fornecidas e identificar se aquele domínio é malicioso, juntamente com a probabilidade. Para a etapa de treinamento dos modelos supervisionados, os dados são balanceados para que não haja viés. O treinamento do modelo não supervisionado é feito apenas com domínios maliciosos, visando gerar clusters puramente maliciosos. Após a etapa de treinamento, os modelos são testados no ambiente real, avaliando novos domínios recém-registrados e o desempenho da abordagem proposta. Por fim, um módulo de re-treinamento está disponível, sempre que houver uma degradação no desempenho. A abordagem proposta na etapa de treinamento apresentou uma área sob a curva ROC (AUC) de 0,96 (+/- 0,01) e uma Acurácia (ACC) de 0,91. Na etapa de teste, que simula o ambiente de produção, as métricas foram ACC 0,88, taxa de de verdadeiro positivo (TVP) de 0,884, taxa de de verdadeiro negativo (TVN) 0,875, taxa de falso positivo (TFP) 0,124 e taxa de falso negativo (TFN) 0,110.