Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Fedacz, Gabriel Lucas lattes
Orientador(a): Rocha, José Carlos Ferreira da lattes
Banca de defesa: Britto Junior, Alceu de Souza lattes, Steffens, Maria Berenice Reynaud
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual de Ponta Grossa
Programa de Pós-Graduação: Programa de Pós Graduação Computação Aplicada
Departamento: Departamento de Informática
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://tede2.uepg.br/jspui/handle/prefix/3251
Resumo: No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático.