Análise de uso de algoritmos de machine learning para desambiguação de entidades

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Castro, William Pires de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/243268
Resumo: O ambiente digital trouxe diversas inovações para a forma com a qual o material científico é consumido. Entretanto, muitas revistas, anais de eventos e afins não se preocupam com a forma de armazenamento dos trabalhos inseridos, permitindo que dados ambíguos sejam cadastrados, como por exemplo as divergências nas abreviaturas de nomes, erros de escrita e atribuições indevidas de trabalhos para autores homônimos, inviabilizando o gerenciamento da base. A área de Desambiguação da Informação estuda formas de se tratar informações ambíguas, contando com técnicas de aprendizado de máquina para desambiguar informação científica. De acordo com o cenário descrito, questiona-se: como a literatura trata a desambiguação de entidades, tais como nomes de autores, utilizando aprendizado de máquina? Esta pesquisa tem como objetivo analisar a abordagem da comunidade científica para a desambiguação de nomes de entidades, buscando compreender a definição dos conceitos da área, identificando as principais formas de execução e lacunas existentes nos métodos de desambiguação avaliados. Quanto à abordagem dos artigos, foram identificadas duas principais divisões: a desambiguação por agrupamento (aprendizado não-supervisionado) e por classificação (aprendizado supervisionado), estendendo-se ao uso de algoritmos para análise dos resultados do processo, visualizando a eficiência do método escolhido. A maior diferença entre os métodos são seus filtros, sendo os mais populares a rede de citações e a rede de co-autoria. Quanto aos desafios científicos, observa-se que a maioria dos textos avaliados sugere a adição de outras formas de desambiguação para ajustar a acurácia, seja por inteligências artificiais bem treinadas ou validação humana dos resultados. Conclui-se que a área de desambiguação de nome de autores tende a processos de agrupamento, mas sem um consenso definido sobre como seguir a partir deste ponto, onde os filtros se tornam a forma principal de distinguir uma pesquisa da outra, podendo levar a novas pesquisas a respeito do assunto.