Novas abordagens de aprendizado semisupervisionado por conectividade ótima

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Amorim, Willian Paraguassu lattes
Orientador(a): Carvalho, Marcelo Henriques de lattes
Banca de defesa: Ponte Junior, Moacir lattes, Miyazawa, Flávio Keidi lattes, Pistori, Hemerson lattes, Matsubara, Edson Takashi
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Mato Grosso do Sul
Programa de Pós-Graduação: Programa de pós-graduação em Ciência da Computação
Departamento: Faculdade de Computação
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916
Resumo: A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido.