Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Lutz, João Adolfo Froede

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Detalhes bibliográficos
Ano de defesa:	2013
Autor(a) principal:	Lutz, João Adolfo Froede
Orientador(a):	Heuser, Carlos Alberto
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Recuperacao : Informacao Web : Desenvolvimento
Palavras-chave em Inglês:	Hidden web Information retrieval Web data extraction Web noise removal
Link de acesso:	http://hdl.handle.net/10183/94625
Resumo:	Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.

Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Registros relacionados