ConPredict: Predição de Links em Redes de Coautoria Baseada em Conteúdo

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: ANTUNES, Jamilson Batista
Orientador(a): BARROS, Flavia de Almeida
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/12372
Resumo: A predição de relacionamentos (Link Prediction) é uma subárea da Mineração de Links e uma das tarefas associadas à Análise de Redes Sociais. Seu objetivo é predizer o surgimento de relacionamentos futuros entre os nós em uma rede social. Este trabalho tem como foco a análise de redes de coautoria, que são um tipo particular de rede de relacionamentos. Já foram propostos muitos métodos para lidar com problemas de predição de links em redes de coautoria. A maioria deles consiste na análise da estrutura da rede através do uso de alguma métrica. Assim, esses trabalhos limitam-se a analisar a rede levando em consideração apenas sua topologia, sem considerar a similaridade do conteúdo dos nós. Este trabalho propõe a utilização de uma abordagem híbrida (baseada na topologia da rede e a baseada em conteúdo) para predição de links em redes de coautoria. O método proposto inicialmente analisa a estrutura da rede atual, e propõe uma lista de links futuros (pares de autores candidatos a colaborarem no futuro) com base na distância entre os nós da rede atual (análise baseada em padrões estruturais da rede). Apenas nós com distância máxima de dois farão parte dessa lista. A seguir, o método proposto calcula a similaridade de conteúdo de cada par de nós (links) nessa lista inicial (análise baseada em similaridade de conteúdo). Apenas os pares de nós que alcançarem o limiar de similaridade adotado (parametrizável) serão propostos como links futuros. Aqui, a análise de similaridade de conteúdo leva em conta os títulos e resumos dos trabalhos publicados por cada autor. Basicamente, o método trabalha com três redes de coautorias: a rede inicial, usada para predição de novos links (chamada nesse trabalho de rede de Coautoria A), uma rede de validação (rede de Coautoria B) e a rede predita (rede de Coautoria C). Nos experimentos realizados, as redes A e B foram extraídas a partir de um repositório de publicações. A rede de Coautoria A (rede inicial) foi gerada a partir de um intervalo de três anos de publicações cientificas, e a rede de Coautoria B (rede futura real) considerava os três anos consecutivos. A rede de Coautoria C predita segundo o método proposto foi comparada com a rede B, a fim de medirmos a performance do nosso método. Os experimentos realizados com quatro sub-redes reais demonstraram que, em geral, o método obteve desempenho satisfatório, tendo obtido melhor resultado sem o uso de Stemming (método para redução de uma palavra ao seu radical, removendo as desinências, afixos, e vogais temáticas) na fase de processamento do conteúdo textual de cada nó da rede.