ORION : uma abordagem eficaz e robusta para aquisição de valores de atributos de entidades do mundo real

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Manica, Edimar
Orientador(a): Galante, Renata de Matos
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/10183/171378
Resumo: Página-entidade é uma página Web que publica dados que descrevem uma entidade de um tipo particular. Adquirir os valores dos atributos de entidades do mundo real publicados nessas páginas é uma tarefa estratégia para diversas empresas. Essa aquisição envolve as tarefas de encontrar as páginas-entidade nos sites e extrair os valores dos atributos publicados nessas páginas. Os trabalhos que discorrem sobre como realizar as tarefas de descoberta das páginasentidade e de extração dos dados de forma integrada possuem aplicação limitada porque são específicos para um domínio de aplicação ou porque requerem anotações a priori. Tendo em vista essa lacuna, esta Tese apresenta Orion, uma abordagem para aquisição de valores de atributos de entidades do mundo real a partir de páginas-entidade baseadas em template. Orion descobre as páginas-entidade nos sites e extrai os valores dos atributos publicados nessas páginas. A principal originalidade da abordagem Orion é realizar as tarefas de descoberta das páginas-entidade e de extração dos dados de forma integrada, independentemente de domínio de aplicação e de anotação a priori. A abordagem Orion inclui uma etapa de descoberta de páginas-entidade que combina características de HTML e URL sem a necessidade de intervenção do usuário para definição dos limiares de similaridade entre as páginas. A etapa de descoberta utiliza uma nova função de similaridade entre páginas baseada na URL que atribui diferentes pesos para os termos de URL de acordo com a capacidade de distinção de páginas-entidade das demais páginas. A abordagem Orion também inclui uma etapa de extração de valores de atributos a partir de consultas Cypher em um banco de dados orientado a grafos. Essa etapa infere as consultas automaticamente. A abordagem Orion é robusta porque inclui uma etapa adicional de reforço que realiza o tratamento de atributos com variação de template. Esse reforço é realizado por meio de uma combinação linear de diferentes funções de similaridade. A fim de avaliar a eficácia de cada etapa da abordagem isoladamente e da abordagem de forma integral, foram realizados experimentos exaustivos utilizando sites reais. Nesses experimentos, a abordagem Orion foi numérica e estatisticamente mais eficaz que os baselines.