Classificação de sites a partir das análises estrutural e textual

Ribas, Oeslei Taborda

Classificação de sites a partir das análises estrutural e textual

Detalhes bibliográficos
Ano de defesa:	2013
Autor(a) principal:	Ribas, Oeslei Taborda
Orientador(a):	Kaestner, Celso Antônio Alves
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Tecnológica Federal do Paraná Curitiba
Programa de Pós-Graduação:	Programa de Pós-Graduação em Computação Aplicada
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Sites da web - Avaliação e classificação Processamento de textos (Computação) Aprendizado do computador Redes neurais (Computação) HTML (Linguagem de marcação de documento) Métodos de simulação Web sites - Ratings and rankings Text processing (Computer science) Machine learning Neural networks (Computer science) HTML (Document marKup language) Simulation methods
Link de acesso:	http://repositorio.utfpr.edu.br/jspui/handle/1/616
Resumo:	Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.

Classificação de sites a partir das análises estrutural e textual

Registros relacionados