Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Vale, Karliane Medeiros Ovidio
Orientador(a): Canuto, Anne Magaly de Paula
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/28464
Resumo: O aprendizado semissupervisionado é um tipo de aprendizado de máquina que integra os mecanismos de aprendizado supervisionado e não supervisionado. Nele, a maioria dos rótulos do conjunto de treinamento são desconhecidos, mas há uma pequena parcela que possui rótulo. Este tipo de aprendizado atrai atenção devido ao seu potencial de utilização de dados rotulados e não rotulados para alcançar melhor desempenho do que o aprendizado supervisionado. Este trabalho consiste em um estudo no campo da aprendizagem semissupervisionada e implementa mudanças na estrutura de dois algoritmos semissupervisionados, self-training e co-training. Na literatura, é comum o desenvolvimento de pesquisas que alteram a estrutura destes algoritmos, no entanto, nenhuma delas propõe a automatização no processo de rotulagem de instâncias não rotuladas, que é o principal propósito deste trabalho. Para atingir este objetivo, três métodos são propostos: FlexConG, FlexCon e FlexCon-C. As principais diferenças entre estes métodos são a forma de calcular o limiar de confiança e a estratégia para escolha dos rótulos a cada iteração, entre elas comitês de classificadores. Para avaliar a performance dos métodos propostos, foi realizada uma análise empírica em que o desempenho destes métodos foi avaliado em 30 conjuntos de dados com características diversificadas. Os resultados indicam que os três métodos propostos e suas versões apresentam melhor desempenho que os métodos self-training e co-training originais na maioria dos casos.