On the impact of sample reduction strategies for heterogeneous network representation learning

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Filipe Barreto do Nascimento
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/46003
Resumo: Modelos de aprendizado de representações em redes mapeiam vértices de um grafo para vetores em um espaço de baixa dimensionalidade, que por sua vez são utilizados em diversas tarefas de aprendizado de máquina, como classificação de vértices, agrupamento (\textit{clustering}) e visualização de dados. Tendo em vista o aumento na disponibilidade de dados em larga escala sobre redes e grafos, tais técnicas devem ser capazes de lidar com conjuntos de dados cada vez maiores e ainda assim garantir a obtenção de resultados competitivos. Adicionalmente, a maioria dos grafos que modelam sistemas reais contêm informações adicionais sobre os tipos de vértices e arestas do grafo, fazendo com que esses sejam normalmente modelados como redes de informação heterogêneas. Assim, consideramos abordagens escaláveis de aprendizado de representações em redes heterogêneas, em particular aquelas baseadas em passeios aleatórios, que amostram sequências de vértices no grafo e as utilizam como entrada pra algoritmos de aprendizado de máquina. Nesta dissertação, propomos duas estratégias para reduzir a quantidade de amostras de treino utilizadas como entrada para os algoritmos, com o intuito de treinar os modelos baseados em passeios aleatórios mais rapidamente: (1) passeios baseados em centralidade, que levam em consideração a informação estrutural de centralidade associada aos nós do grafo e (2) passeios focados, que concentram sua atenção em tipos específicos de vértices a depender da tarefa em questão. Nossas descobertas apontam que ambas as estratégias contribuem para a redução no conjunto de amostras de treino necessárias e sugerem a presença de dados redundantes nos processos de amostragem tradicionais referentes a esses modelos. Experimentos em três conjuntos de dados de sistemas reais demonstram que nossas abordagens propostas são capazes de manter e, ocasionalmente, superar resultados obtidos por modelos já estabelecidos na literatura, validando assim sua adoção como novas ferramentas no projeto de algoritmos escaláveis de aprendizado de representações em redes.