Algoritmo kNN na imputação de dados de espectros de massa do tipo MALDI-TOF: uma análise da influência da imputação com kNN sobre o desempenho de classificadores logísticos para identificação de bactérias

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Santos, Fábio dos lattes
Orientador(a): Rocha, José Carlos Ferreira da lattes
Banca de defesa: Borges, André Pinz, Galvão, Carolina Weigert
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual de Ponta Grossa
Programa de Pós-Graduação: Programa de Pós Graduação Computação Aplicada
Departamento: Departamento de Informática
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://tede2.uepg.br/jspui/handle/prefix/2665
Resumo: O processo de identificação de bactérias relacionadas ao crescimento vegetal,é alvo de diversos estudos na área de bioinformática. Uma das formas para realizar esta identificação é utilizar dados de espectrometria de massa do tipo MALDI-TOF para detectar a presença de proteínas ribossomaisemumaamostra,eentão,usarclassificadoresparaprocessarestesdadoseselecionar o rótulo com a maior probabilidade. Durante o processo de geração dos espectros de massa paraclassificaçãoécomumanãodetecçãodealgumdospicosrelacionadosaproteínasribossomais. Considerando isto, este trabalho apresenta um estudo sobre o uso do algoritmo kNN para imputação desses casos. O estudo foi desenvolvido com o uso de classificadores logísticos para identificação de bactérias da espécie Staphylococcus aureus e do gênero Bacillus. Durante os experimentos foram testados três técnicas para imputar dados: imputação com zero, imputação com a média do atributo faltante, e a imputação com kNN. Desta última foram usadas duas abordagens: função de agregação de média e função de agregação de mediana. O protocolo experimental implementado possibilitou avaliar a influência da imputação sobre os resultados de classificação sob diferentes cenários no que se refere ao número de variáveis faltantes. Os resultadosobtidosmostramqueoempregodokNNnãolevouàumareduçãododesempenhodos classificadores, em relação àquele observado quando do uso de dados completos. Além disto, a classificação de dados submetidos a imputação pelo kNN apresentou desempenho superior àquele verificado quando do uso dos demais métodos.