Detalhes bibliográficos
Ano de defesa: |
2016 |
Autor(a) principal: |
Carvalho, Thales Francisco Mota |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Viçosa
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://www.locus.ufv.br/handle/123456789/9482
|
Resumo: |
A mineração de dados (DM, do inglês data mining) é um processo de des- coberta de padrões que permite extrair informação e conhecimento em grandes volumes de dados. Suas principais técnicas se baseiam em predição, classificação e agrupamento (clustering). Estas técnicas têm sido utilizadas na bioinformá- tica para classificar o perfil de expressão gênica, encontrar padrões em sequências de DNA, avaliar a estrutura do dobramento de proteínas, entre outras aplicações. Neste trabalho, avançadas técnicas de DM foram aplicadas para o desenvolvimento de um Data Warehouse específica para geminivírus (geminivirus.org), a fim de au- xiliar na organização, correção e normalização de dados referentes a geminivírus. Neste Data Warehouse também foram propostas metodologias baseadas em regras e aprendizado de máquina (ML) que classificam as sequências de DNA e seus ge- nes. A família Geminiviridae é composta por pequenos vírus de DNA circular de fita simples que infectam uma grande variedade de plantas e causam sérios danos econômicos ao redor do mundo. O aprimoramento da amplificação do DNA viral e de técnicas de sequenciamento permitiram um enorme crescimento de dados em banco de dados públicos. Simultaneamente, ocorreu o crescimento no volume de publicações relacionadas a esta família. Desta forma, numa segunda linha de tra- balho surgiu a necessidade de aplicar as técnicas de DM, seguindo o processo de KDD (knowledge-discovery in databases) para extrair informações desses dados. Além disso, técnicas de Processamento de Linguagem Natural (NLP) foram utili- zadas para extrair informação em resumos de artigos relacionados a geminivírus. Assim, o acervo científico pode ser explorado de maneira contextualizada. Final- mente, uma terceira frente de trabalho em mineração de dados foi empreendida, desta vez direcionada à descoberta de proteínas ribossomais. Pesquisas recentes têm demonstrado que plantas suprimem o mecanismo global de tradução como uma estratégia de imunidade antiviral. Entretanto, poucas proteínas ribossomais são mencionadas a integrarem vias do mecanismo de defesa das plantas. As pro- teínas ribossomais (RPs) desempenham um papel fundamental em células vivas, pois são o principal componente dos ribossomos. Além disso, estas proteínas estão envolvidas em vários processos fisiológicos e patológicos. Assim, foi desenvolvido um método de aprendizado de máquina capaz de identificar novas proteínas ri- bossomais, designado Rama. O Rama utiliza abordagens inovadoras em relação aos métodos computacionais atualmente existentes. Em experimentos in silico, o Rama obteve resultados médios de precisão, acurácia, sensitividade e especifici- dade de 0.9203, 0.9214, 0.9214 e 0.8236, respectivamente. Ademais, duas proteínas não caracterizadas foram preditas como RPs pelo Rama e experimentos in vitro confirmaram a veracidade do resultado, ao passo que as metodologias atuais não conseguem lograr o mesmo sucesso. |