Avaliação de métodos de similaridade textual no contexto de investigação policial.

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: MARQUES JUNIOR, Antonio Ricardo.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
Resumo: A Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial.