Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Barreto, Cephas Alves da Silveira
Orientador(a): Canuto, Anne Magaly de Paula
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/handle/123456789/55155
Resumo: Nos últimos anos, a utilização de técnicas de Aprendizado de Máquina (AM) para resolver problemas reais tem se tornado muito comum e um padrão tecnológico adotado em uma infinidade de domínios. Uma série desses domínios, entretanto, não possui dados rotulados suficientes para proporcionar aos métodos de AM um bom desempenho. Para tratar esse problema, foram desenvolvidos os métodos de aprendizado semissupervisionado, um tipo de método capaz de utilizar as instâncias rotuladas e não-rotuladas na construção de seu modelo. Dentre os métodos de aprendizado semissupervisionado, destacam-se os métodos indutivos. Os métodos do tipo wrapper, categoria particular dentre os métodos indutivos, utilizam um processo, muitas vezes iterativo, que envolve: treinamento do método com os dados rotulados; seleção dos melhores dados não-rotulados; e rotulagem dos dados selecionados. Apesar de se mostrar um processo simples e eficiente, é muito comum que erros na seleção ou na rotulagem ocorram, o que acaba por deteriorar o desempenho final do método. Buscando a diminuição dos erros de seleção e rotulagem em métodos indutivos, especialmente os métodos do tipo wrapper, esta pesquisa tem por objetivo estabelecer abordagens de seleção e rotulagem mais robustas e menos suscetíveis a erros. Para tal, são propostas uma abordagem de seleção e rotulagem de instâncias baseada em concordância de classificação e também uma abordagem de seleção e rotulagem baseada na utilização de métrica de distância como fator adicional a um critério de seleção já utilizado (e.g. confiança ou concordância). As abordagens propostas podem ser aplicadas a qualquer método wrapper e foram testadas sobre 42 datasets com os métodos Self-training, Co-training e Boosting. Os resultados obtidos apontam que as propostas trazem ganhos para os métodos em termos de acurácia e também de F-measure.