Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Noda, Mauricio
Orientador(a): Gelis Filho, Antonio
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: https://hdl.handle.net/10438/30005
Resumo: A pesquisa visou identificar aplicações de técnicas de Processamento de Linguagem Natural (NLP) na prática de administração de empresas. Técnicas de NLP visam à análise automatizada de documentos escritos em linguagem natural, sem uma padronização das informações exibidas. Entre elas, duas técnicas destinadas à Recuperação de Informação foram utilizadas. Uma técnica específica, a Alocação de Dirichlet Latente (LDA) mostrou-se eficaz na classificação automática de relatórios de administração, agrupando-os por similaridade. Uma segunda técnica, busca de palavras por TF-IDF, revelou-se eficaz na identificação automatizada de grupos de documentos com indicadores desejados, em sua maioria, de natureza financeira. Uma terceira técnica, Mineração de Dados, foi combinada às duas primeiras para automatizar a coleta em massa de relatórios do repositório da CVM. O resultado combinado das três técnicas foi, a partir de uma palavra-chave de escolha e um grande repositório remoto de relatórios da CVM, o de conseguir localizar automaticamente documentos específicos contendo indicadores financeiros desejados, em meio a centenas de milhares de outros documentos. A busca automatizada desses documentos, que, de outra forma, poderiam ter sido ignorados devido ao excesso de dados a serem analisados, pode contribuir para a melhoria da prática administrativa.