Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Cardoso, Giovanni Brígido Bezerra
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/589384
Resumo: A tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em redes complexas e aprendizagem automática que permite estimar, acuradamente, a probabilidade de uma empresa estar envolvida em fraudes. A metodologia mostra que, somente com dados cadastrais das empresas, em especial dados societários, juntamente com dados de uma pequena amostra de dados de empresas inidôneas (advindos da Controladoria Geral da União), ambos dados abertos ao público, pode-se indicar empresas candidatas à fiscalização com maior probabilidade de sucesso do que métodos tradicionais, que não utilizam grafos e aprendizado de máquina na detecção de anomalias. Ao invés de se concentrar exclusivamente em características individuais das empresas, a metodologia visa inicialmente definir um padrão de grupos de empresas levando particularmente em conta a relação que as empresas têm entre si através de seus sócios. Uma rede bipartite entre empresas e sócios foi criada, o que permitiu posteriormente realizar a projeção dessa rede numa rede entre empresas onde o peso entre elas está relacionado ao índice Jaccard entre os sócios que elas possuem. A partir da identificação dos componentes conexos da rede projetada, pode-se criar grupos representando um padrão de empresas de um certo componente conexa levando em conta as relações societárias bem como as características individuais das mesmas. Grupos gerados a partir de componentes conexos em que pelo menos uma empresa grande estava presente foram escolhidos como foco. Cada padrão foi associado a uma probabilidade de se conter empresas inidôneas. A partir disso, pode-se aplicar um modelo de classificação baseado em aprendizado de máquina para estimar a probabilidade de um padrão de empresas indicar o risco de que uma empresa, que se encaixa nesse padrão, esteja envolvida em atividades fraudulentas. Os resultados encontrados sugerem que os modelos criados a partir dessa metodologia são capazes de prever o risco de inidoneidade de uma empresa com uma razoável acurácia (ACC ~ 0.77, AUC ~ 0.86). Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudes