Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Nhassengo, Evaristo Calisto |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23032020-101746/
|
Resumo: |
No uso dos algoritmos de aprendizado de máquina para as tarefas de classificação, admite-se a existência de um conjunto de exemplos rotulados conhecido como conjunto de treinamento. Este conjunto é utilizado para treinar um classificador. Porém em vários casos de aplicação real o conjunto de treinamento pode não ser suficiente para treinar um bom classificador. Existe uma variação dos algoritmos de aprendizado de máquina supervisionado, conhecida como algoritmos semi-supervisionados. Os algoritmos semi-supervisionados, assumem que, juntamente com o conjunto de treinamento, existe um segundo conjunto de exemplos não rotulados, também disponível durante o treinamento. Um dos objetivos dos algoritmos semisupervisionados é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível e o conjunto de exemplos rotulados é escasso. Para tratar o problema da escassez de dados rotulados propõe-se uma escolha estratégica de exemplos a rotular para uma classificação eficaz. Neste trabalho é generalizado o problema clássico da amostragem de sinais, considera-se o problema da amostragem de sinais definidos em grafos. A teoria de amostragem de sinais em grafos estuda o problema da escolha do melhor subconjunto de vértices para a reconstrução perfeita do sinal através de sua amostra. No estudo de sinais através de grafos a representação do domínio de frequência é dada através dos autovalores e autovetores do Laplaciano. Aplica-se o algoritmo de amostragem de sinais em grafos (ANIS; GADDE; ORTEGA, 2016) para selecionar o melhor conjunto de treinamento em um conjunto de dados. Estuda-se o efeito que a amostragem de sinais em grafos tem nos algoritmos de aprendizado semi-supervisionado. Propõe-se um algoritmo semi-supervisionado ativo baseado no algoritmo proposto por Anis, Gadde e Ortega (2016) e no algoritmo de propagação de rótulos LLGC (ZHOU et al., 2004). A proposta é modificar a matriz de similaridade dos dados, para considerar amostras da região de classificação incerta a cada iteração. Mostra-se através de experimentos numéricos que a proposta supera outras técnicas de aprendizado ativo, quando os dados rotulados são escassos. Nos experimentos são usados conjuntos de dados reais e artificiais. |