[en] CAN MACHINE LEARNING REPLACE A REVIEWER IN THE SELECTION OF STUDIES FOR SYSTEMATIC LITERATURE REVIEW UPDATES?

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: MARCELO COSTALONGA CARDOSO
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68121&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68121&idi=2
http://doi.org/10.17771/PUCRio.acad.68121
Resumo: [pt] [Contexto] A importância das revisões sistemáticas da literatura (RSLs) para encontrar e sintetizar novas evidências para Engenharia de Software (ES) é bem conhecida, mas realizar e manter as RSLs atualizadas ainda é um grande desafio. Uma das atividades mais exaustivas durante uma RSL é a seleção de estudos, devido ao grande número de estudos a serem analisados. Além disso, para evitar viés, a seleção de estudos deve ser conduzida por mais de um revisor. [Objetivo] Esta dissertação tem como objetivo avaliar o uso de modelos de classificação de texto de machine learning (ML) para apoiar a seleção de estudos em atualizações de RSL e verificar se tais modelos podem substituir um revisor adicional. [Método] Reproduzimos a seleção de estudos de uma atualização de RSL realizada por três pesquisadores experientes, aplicando os modelos de ML ao mesmo conjunto de dados que eles utilizaram. Utilizamos dois algoritmos de ML supervisionado com configurações diferentes (Random Forest e Support Vector Machines) para treinar os modelos com base na RSL original. Calculamos a eficácia da seleção de estudos dos modelos de ML em termos de precisão, recall e f-measure. Também comparamos o nível de semelhança e concordância entre os estudos selecionados pelos modelos de ML e os revisores originais, realizando uma análise de Kappa e da Distância Euclidiana. [Resultados] Em nossa investigação, os modelos de ML alcançaram um f-score de 0.33 para a seleção de estudos, o que é insuficiente para conduzir a tarefa de forma automatizada. No entanto, descobrimos que tais modelos poderiam reduzir o esforço de seleção de estudos em 33.9 por cento sem perda de evidências (mantendo um recall de 100 por cento), descartando estudos com baixa probabilidade de inclusão. Além disso, os modelos de ML alcançaram em média um nível de concordância moderado com os revisores, com um valor médio de 0.42 para o coeficiente de Kappa. [Conclusões] Os resultados indicam que o ML não está pronto para substituir a seleção de estudos por revisores humanos e também pode não ser usado para substituir a necessidade de um revisor adicional. No entanto, há potencial para reduzir o esforço de seleção de estudos das atualizações de RSL.