Geração automática de padrões de navegação para web sites de conteúdo dinâmico
Ano de defesa: | 2006 |
---|---|
Autor(a) principal: | |
Outros Autores: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Computação BR UFAM Programa de Pós-graduação em Informática |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.ufam.edu.br/handle/tede/2940 |
Resumo: | Um crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito de informações valiosas que estas páginas implicitamente contêm para realizar tarefas como consulta, busca, extração de dados, mineração de dados e análise de características de uso e popularidade. Para algumas destas aplicações os critérios para determinar quando uma página deve estar presente na coleção estão relacionados a características do conteúdo da página. Contudo, exitem muitas outras importantes situações em que características inerentes à estrutura das páginas, ao invés de seu conteúdo, provêm um critério melhor para guiar a coleta de páginas. Motivados por este problema, propomos nesta dissertação uma nova abordagem para geração de coletores guiados por estrutura que requer um esforço mínimo do usuário, pois são necessário apenas um exemplo das páginas a coletar e um ponto de entrada no Web site. Uma outra característica importante de nossa abordagem, é o fato de ser capaz de lidar com sites onde as páginas a serem coletadas são geradas dinamicamente através do preenchimento de formulários. Ao contrário dos métodos existentes na literatura, no nosso caso não é necessária a existência de um banco de dados de amostra para auxiliar no processo de preenchimento do formulário, nem tão pouco é necessária grande iteração com o usuário. Resultados obtidos em experimento com nossa abordagem demonstraram um valor de 100% de precisão em coletas realizadas sobre 17 Web sites reais de conteúdo estático e dinâmico, e pelo menos 95% de revocação para 11 sites estáticos utilizados nos experimentos. |