Banco de dados biológico no modelo relacional para mineração de dados em genomas completos de procariotos disponibilizados pelo NCBI GenBank

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Guizelini, Dieval
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1884/25297
Resumo: Resumo: O NCBI GenBank, um dos três principais bancos de dados primários, tem centralizado as informações obtidas pelos processos de sequenciamento de DNA e/ou RNA e as tem distribuído no formato de arquivos textos. Nos servidores de arquivos do GenBank, para o Domínio Bactéria e Domínio Archea, existe um arquivo em formato específico para cada organismo, cromossomo ou plasmídeo completamente sequenciado, com seus genomas e respectivas anotações. Detectou-se a ausência de um modelo de banco de dados para armazenar todas as informações, bem como se observou a necessidade de redistribuir essas informações no formato de banco de dados relacional. Este trabalho propõe um modelo de banco de dados relacional e um conjunto de ferramentas para análise, transposição dos dados no formato texto para o modelo de banco de dados relacional desenvolvido e estratégias de atualização. O modelo foi desenvolvido a partir da análise da especificação do GenBank e da observação das informações de organismos espalhados em mais de 2000 arquivos. Para o desenvolvimento das ferramentas, adotou-se a metodologia da prototipação, padrões de projetos, testes e análises de desempenho. Os resultados obtidos demonstram a possibilidade de armazenar todos os dados nos principais SGBD, com redução significativa da redundância nos dados e obtenção de alto desempenho nas quatro etapas do processo: 1) sincronização dos arquivos de texto em um repositório local a partir do servidor de arquivos do NCBI; 2) análise dos arquivos e interpretação dos campos; 3) carga dos dados analisados no banco de dados e; 4) aderência do modelo desenvolvido com a especificação e desempenho observado nas consultas feitas. Esta dissertação contribui para um novo modelo de organização, acesso e distribuição das informações do NCBI GenBank.