[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: THORAN ARAGUEZ RODRIGUES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=13890&idi=2
http://doi.org/10.17771/PUCRio.acad.13890
Resumo: [pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta proliferação aumente as chances de que o tema sendo buscado por um usuário esteja presente na rede, ela também torna encontrar a informação desejada mais difícil. A classificação automática de páginas é, portanto, uma importante ferramenta na organização de conteúdo da Web, com aplicações específicas na melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi realizado um estudo comparativo de diferentes conjuntos de atributos e métodos de classificação aplicados ao problema da classificação funcional de páginas web, com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao longo dos experimentos, foi possível constatar que a melhor abordagem para esta tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas. Foi apresentada também uma estratégia nova de construção de conjuntos de atributos de texto, que leva em consideração os diferentes estilos de escrita das classes de páginas.