Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Ribeiro, Luis Guilherme
 |
Orientador(a): |
Rocha, José Carlos Ferreira da
 |
Banca de defesa: |
Galvão, Carolina Weigert,
Sguario, Mauren Louise |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual de Ponta Grossa
|
Programa de Pós-Graduação: |
Programa de Pós Graduação Computação Aplicada
|
Departamento: |
Departamento de Informática
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
http://tede2.uepg.br/jspui/handle/prefix/3197
|
Resumo: |
Um grama de solo pode conter até 8,3 milhões de diferentes espécies bacterianas, entre elas existem as que favorecem a produtividade agrícola, promovendo o crescimento vegetal e protegendo contra pragas e doenças. Uma das abordagens que tem sido utilizada na identificação destes microrganismos é por meio da impressão digital de proteínas ribossomais de bactérias em espectros de massa extraídos através de uma técnica de química analítica chamada de MALDITOF. Esta técnica extrai informações de massa carga (m/z) das moléculas de uma amostra, que podem ser submetidas à classificadores digitais que rotulam os dados da amostra de acordo com seu nível de taxonomia. Porém, na maioria dos casos, estes conjuntos de dados possuem múltiplas classes e alto índice de desbalanceamento, o que tem dificultado o desenvolvimento de classificadores digitais. Assim, os sistemas de múltiplos classificadores proveem maneiras de tratar estes problemas. Neste contexto, os esquemas de seleção dinâmica que usam metaaprendizagem exploram um conjunto de metacaracteristicas, extraídas do conjunto de treinamento, para estimar o nível de competência dos classificadores base e então selecionar o conjunto de classificadores mais aptos para predizer uma amostra. Considerando o exposto, este trabalho avalia o desempenho de diferentes esquemas de seleção dinâmica para identificação de gêneros bacterianos a partir de sua impressão digital em termos de m/z de proteínas ribossomais. O trabalho também apresenta o esquema denominado de METADES-i que estende o esquema METADES, por meio do uso de metacaracterísticas sensíveis a dados desbalanceados. O desempenho dos esquemas de seleção dinâmica foi mensurado em termos de acurácia média, acurácia balanceada, média geométrica e overfitting sobre um conjunto de dados sintéticos, chamado de PUKYU. Nos experimentos foram utilizados diferentes cenários, definidos como subconjuntos do conjunto de dados PUKYU. Além disso, foi analisado a influência da composição dos classificadores base: homogênea ou heterogênea. Os resultados dos experimentos demonstram que o esquema proposto foi significativamente superior aos demais em termos de acurácia balanceada e média geométrica. Em termos de acurácia média, o esquema METADES-i foi superior somente quando utilizou a composição homogênea. No que tange ao overfitting, os esquemas com melhor desempenho foram o METADES-i, KNOP e KNORA-U. A análise multiobjetivo entre a acurácia balanceada e o overfitting indicou que o esquema METADES-i participou da fronteira de dominância em todos os cenários. O resultado relacionado ao procedimento de seleção de metacaracterísticas, indicou que ao aplicar o método Relief ao METADES-i obteve uma melhora nas métricas de assertividade, porém houve queda no desempenho em termos de overfitting. Com relação a composição dos classificadores, a composição heterogênea mostrou-se superior na maioria dos casos. Finalmente, os resultados sugerem que a adequação do subconjunto de metacaracterísticas de esquemas de seleção dinâmica baseado em meta-aprendizagem, pode incrementar o desempenho de sistemas com múltiplos classificadores em termos de assertividade em conjunto de dados desbalanceados. |