Classificação bacteriana baseada em proteínas ribossomais oriundas de dados genômicos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Silva, Renann Rodrigues da lattes
Orientador(a): Etto, Rafael Mazer lattes
Banca de defesa: Stets, Maria Isabel lattes, Rocha, Jose Carlos Ferreira da
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual de Ponta Grossa
Programa de Pós-Graduação: Programa de Pós Graduação Computação Aplicada
Departamento: Departamento de Informática
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://tede2.uepg.br/jspui/handle/prefix/3320
Resumo: Nas áreas da saúde e agricultura, a identificação bacteriana é essencial para compreender a composição da comunidade microbiana e a sua ecologia. As técnicas de identificação de microrganismos buscam maior precisão, rapidez e menos custo. Uma técnica que vem sendo estudada e amplamente utilizada para a identificação de microrganismos é a identificação através de espectros de massa. Por meio de picos referentes às mais abundantes massas moleculares registradas no espectro, é possível gerar um perfil para reconhecimento de um microrganismo. Outra forma de identificar um espectro de massa, é por meio de picos que são esperados que apareçam no espectro, modelo cujo qual este trabalho fez uso. Para presumir os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, isto é, são onipresentes e responsáveis pelo funcionamento celular básico. Além de apresentarem em grande abundância no conteúdo procariótico, as proteínas ribossomais são altamente conservadas, não possuindo alteração em sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI e foram utilizados somente dados notados como completo, a base de dados criada recebeu o nome de Puchuy e possui 14689 registro. Esta base de dados presumida foi gerada para taxonomia a nível de Domínio, Filo, Classe, Ordem, Família, Gênero e Espécie, e posteriormente submetida à um aprendizado de máquina. Dessa forma, foi possível obter modelos classificatórios de microrganismos baseado em valores de proteínas ribossomais. Foram gerados modelos para cada nível taxonômico, os quais foram utilizados somente os que possuíram melhor desempenho para cada nível. Ainda foi adicionado um algoritmo de agrupamento para o auxílio da classificação. Com os modelos gerados pelo aprendizado de máquina, foi desenvolvido um software, capaz classificar os microrganismos a nível de Filo, Classe, Ordem, Família, Gênero e Espécie. Por fim, foram comparados diferentes classificadores para cada nível taxonômico, com e sem a utilização de um método de agrupamento.