[en] HEURISTICS FOR DATA POINT SELECTION FOR LABELING IN SEMI-SUPERVISED AND ACTIVE LEARNING CONTEXTS
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54776&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54776&idi=2 http://doi.org/10.17771/PUCRio.acad.54776 |
Resumo: | [pt] O aprendizado supervisionado é, hoje, o ramo do aprendizado de máquina central para a maioria das inovações nos negócios. A abordagem depende de ter grandes quantidades de dados rotulados, suficiente para ajustar funções com a precisão necessária. No entanto, pode ser caro obter dados rotulados ou criar os rótulos através de um processo de anotação. O aprendizado semisupervisionado (SSL) é usado para rotular com precisão os dados a partir de pequenas quantidades de dados rotulados utilizando técnicas de aprendizado não supervisionado. Uma técnica de rotulagem é a propagação de rótulos. Neste trabalho, usamos especificamente o algoritmo Consensus rate-based label propagation (CRLP). Este algoritmo depende do uma função de consenso para a propagação. Uma possível função de consenso é a matriz de co-associação que estima a probabilidade dos pontos i e j pertencem ao mesmo grupo. Neste trabalho, observamos que a matriz de co-associação contém informações valiosas para tratar esse tipo de problema. Quando nenhum dado está rotulado, é comum escolher aleatoriamente, com probabilidade uniforme, os dados a serem rotulados manualmente, a partir dos quais a propagação procede. Este trabalho aborda o problema de seleção de um conjunto de tamanho fixo de dados para serem rotulados manualmente que propiciem uma melhor precisão no algoritmo de propagação de rótulos. Três técnicas de seleção, baseadas em princípios de amostragem estocástica, são propostas: Stratified Sampling (SS), Probability (P), and Stratified Sampling - Probability (SSP). Eles são todos baseados nas informações embutidas na matriz de co-associação. Os experimentos foram realizados em 15 conjuntos de benchmarks e mostraram resultados muito interessantes. Não só, porque eles fornecem uma seleção mais equilibrada quando comparados a uma seleção aleatória, mas também melhoram os resultados de precisão na propagação de rótulos. Em outro contexto, essas estratégias também foram testadas dentro de um processo de aprendizagem ativa, obtendo também bons resultados. |