[en] EFFICIENT METHODS FOR INFORMATION EXTRACTION IN NEWS WEBPAGES

EDUARDO TEIXEIRA CARDOSO

[en] EFFICIENT METHODS FOR INFORMATION EXTRACTION IN NEWS WEBPAGES

Detalhes bibliográficos
Ano de defesa:	2017
Autor(a) principal:	EDUARDO TEIXEIRA CARDOSO
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] APRENDIZADO DE MAQUINA [pt] RENDERIZACAO DE PAGINAS WEB [pt] SEGMENTACAO DE NOTICIAS [en] MACHINE LEARNING
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28984&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28984&idi=2 http://doi.org/10.17771/PUCRio.acad.28984
Resumo:	[pt] Nós abordamos a tarefa de segmentação de páginas de notícias; mais especificamente identificação do título, data de publicação e corpo da notícia. Embora existam resultados muito bons na literatura, a maioria deles depende da renderização da página, que é uma tarefa muito demorada. Nós focamos em cenários com um alto volume de documentos, onde desempenho de tempo é uma necessidade. A abordagem escolhida estende nosso trabalho prévio na área, combinando propriedades estruturais com traços de atributos visuais, calculados através de um método mais rápido do que a renderização tradicional, e algoritmos de aprendizado de máquina. Em nossos experimentos, nos atentamos para alguns fatos não comumente abordados na literatura, como tempo de processamento e a generalização dos nossos resultados para domínios desconhecidos. Nossa abordagem se mostrou aproximadamente uma ordem de magnitude mais rápida do que alternativas equivalentes que se apoiam na renderização completa da página e manteve uma boa qualidade de extração.

[en] EFFICIENT METHODS FOR INFORMATION EXTRACTION IN NEWS WEBPAGES

Registros relacionados