[pt] O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML

IAM VITA JABOUR

[pt] O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML

Detalhes bibliográficos
Ano de defesa:	2011
Autor(a) principal:	IAM VITA JABOUR
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] REPRESENTACAO VISUAL [pt] ISOMORFISMO EM ÁRVORE [pt] EXTRACAO DE INFORMACAO [en] VISUAL REPRESENTATION [en] EXTRACTION OF INFORMATION
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247&idi=2 http://doi.org/10.17771/PUCRio.acad.17247
Resumo:	[pt] A segmentação de documentos HTML tem sido essencial para as tarefas de extração de informações, como mostram vários estudos na área. Nesta dissertação investigamos a relação entre o documento HTML e sua representação visual, mostrando como esta ligação ajuda na abordagem estrutural para a identificação de segmentos. Também investigamos como utilizar algoritmos de distância de edição em árvores para encontrar padrões na árvore DOM, tornando possível resolver duas tarefas de identificação de segmentos. A primeira tarefa é a identificação de tabelas genuínas, aonde foi obtido 90,40% de F1 utilizando o corpus fornecido por (Wang e Hu, 2002). Mostramos através de um estudo experimental que este resultado é competitivo com os melhores resultados da área. A segunda tarefa que consideramos é a identificação de listas de produtos em sites de comércio eletrônico, nessa obtivemos 94,95% de F1 utilizando um corpus com 1114 documentos HTML, criado a partir de 8 sites. Concluímos que os algoritmos de similaridade estrutural ajudam na resolução de ambas às tarefas e acreditamos que possam ajudar na identificação de outros tipos de segmentos.

[pt] O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML

Registros relacionados