Explorando aprendizagem ativa para reduzir o esforço manual na geração de gabaritos para resolução de entidades.
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/8376 |
Resumo: | Diversos métodos de Resolução de Entidades (RE) têm sido desenvolvidos na academia e indústria ao longo dos anos com o intuito de identificar entidades (e.g.registros) duplicadas em bases de dados a fim de tratá-las. Para avaliar a qualidade dos resultados de tais métodos, é necessário compará-los com um gabarito, que consiste em um documento contendo todos os pares de registros duplicados conhecidos em uma base de dados. A geração desses gabaritos para bases de dados reais é feita de forma manual a partir da inspeção de todas as combinações de pares de registros existentes nessas bases. Isso apresenta complexidade quadrática, com relação ao(s) tamanho(s) da(s) base(s) de dados, o que acarreta na necessidade e bastante tempo para realização da tarefa e na possibilidade de introdução de erros. Em virtude disto,alguns trabalhos apresentam abordagens automáticas ou semiautomáticas para geração de gabaritos para a tarefa de RE que, no entanto, ou não são aplicáveis a domínios variados ou ainda requerem um esforço manual considerável. Neste trabalho é proposta GTGenERAL, uma abordagem semiautomática que combina resultados de múltiplos algoritmos de RE juntamente com Aprendizagem Ativa para gerar gabaritos, com redução de esforço manual. Experimentos usando bases de dados reais mostram que a abordagem é capaz de gerar gabaritos próximos àqueles gerados pela abordagem do estado da arte, enquanto reduz substancialmente o esforço manual empreendido no processo. |