Mapeamento de genes nif publicados no NCBI usando conceitos de mineração de dados e inteligência artificial

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Gehlen, Michelly Alves Coutinho
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1884/25531
Resumo: Resumo: A Fixação Biológica de Nitrogênio é um importante processo biosustentável, aplicado na agricultura sob a forma de biofertilizantes. Na FBN ocorre a redução do dinitrigênio gasoso (N2) à amônia (NH4), mediante catalização realizada pelo Complexo da Nitrogenase. Este Complexo é codificado basicamente por um agrupamento (cluster) de genes conhecidos como nif. Esta pesquisa propõe, através de técnicas e aplicações em Bioinformática, o desenvolvimento de uma metodologia para mineração de dados relacionados a genes nifHDKEN publicamente disponibilizadas pelo Centro Nacional para Informações de iotecnologia (NCBI), através do Banco de Dados GenBank®; a classificação automática das informações através da implementação e uso de uma rede neural artificial modelo FAN; o mapeamento relacional entre genes nif encontrados e seus respectivos organismos e o descritivo de um paralelo entre a literatura de referência e os resultados encontrados. A automatização dos processos foi realizada mediante a criação de programas (scripts) em linguagem de programação Python, versão, 2.6, suplantada pel biblioteca de algoritmos utilitários para Bioinformática, BioPython, versão, 1.5.2. O processo de coleta e mineração de dados baseou-se em resultados obtidos através da execução online da ferramenta NCBI BLASTP. Sobre os dados coletados foram aplicadas técnicas para extração de características para posterior classificação das informações via rede neural artificial. Para a maximização dos resultados referentes ao processo de aprendizagem da rede neural, aplicou-se ainda sobre os dados, a técnica de co-aprendizado supervisionado. Os ados classificados e mapeados foram submetidos a uma pós-análise, visando ancorar as informações adquiridas com a literatura referência da área. Até a data de 25/11/2010 foram encontrados e classificados 14988 registros referentes a anotações de sequências protéicas relacionadas a genes nifHDKEN, agrupados em 2125 organismos diferentes, considerando-se as estirpes dos mesmos. Sem considerar as estirpes dos organismos foram relacionados 646 organismos diferentes, contendo pelo menos um gene nif seqüenciado, anotado, depositado e disponibilizado no NCBI GenBank. Considerando-se os 1425 genomas ompletos já depositados no NCBI GenBank em 28/01/2011, 14,03% apresentam em sua anotação, pelo menos um gene nif.