Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Fedacz, Gabriel Lucas
 |
Orientador(a): |
Rocha, José Carlos Ferreira da
 |
Banca de defesa: |
Britto Junior, Alceu de Souza
,
Steffens, Maria Berenice Reynaud |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual de Ponta Grossa
|
Programa de Pós-Graduação: |
Programa de Pós Graduação Computação Aplicada
|
Departamento: |
Departamento de Informática
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
http://tede2.uepg.br/jspui/handle/prefix/3251
|
Resumo: |
No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático. |