Mineração de dados em base de germoplasma

Detalhes bibliográficos
Autor(a) principal: Hiragi, Gilberto de Oliveira
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/1187
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
id UNB_824523dd73163caf7769f6c39c0c46a6
oai_identifier_str oai:repositorio.unb.br:10482/1187
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Mineração de dados em base de germoplasmaBase de germoplasmaMineração de dados (Computação)SIBRARGENMetodologia de mineraçãoCRISP/DMHaDogDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas consultas não facilitam a descoberta de novos conhecimentos ou a construção de modelos de previsão ou descrição. Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de referência CRISP/DM, que auxilie a exploração dessas bases de dados por pesquisadores não vinculados à área de informática (por exemplo, biólogos ou agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas. _________________________________________________________________________________________ ABSTRACTThe banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic Resources) function as a great catalogue of the vegetal species and of its accesses (characteristic types inside of a group or variabilities inside of the species), contend more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of new knowledge or the construction of forecast models or description. This research considers a data mining methodology, derived from the model of reference CRISP/DM, that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business understanding, data understanding, data preparation, modeling, evaluation of the generated models and deployment. To materialize the methodology proposal and to automatize its use by people who aren’t of the computer science area, the HaDog tool was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists.Ladeira, MarceloHiragi, Gilberto de Oliveira2009-02-11T16:01:26Z2009-02-11T16:01:26Z2009-02-112008-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfHIRAGI, Gilberto de Oliveira. Mineração de dados em base de germoplasma. 2008. 107 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.http://repositorio.unb.br/handle/10482/1187info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:25Zoai:repositorio.unb.br:10482/1187Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:25Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Mineração de dados em base de germoplasma
title Mineração de dados em base de germoplasma
spellingShingle Mineração de dados em base de germoplasma
Hiragi, Gilberto de Oliveira
Base de germoplasma
Mineração de dados (Computação)
SIBRARGEN
Metodologia de mineração
CRISP/DM
HaDog
title_short Mineração de dados em base de germoplasma
title_full Mineração de dados em base de germoplasma
title_fullStr Mineração de dados em base de germoplasma
title_full_unstemmed Mineração de dados em base de germoplasma
title_sort Mineração de dados em base de germoplasma
author Hiragi, Gilberto de Oliveira
author_facet Hiragi, Gilberto de Oliveira
author_role author
dc.contributor.none.fl_str_mv Ladeira, Marcelo
dc.contributor.author.fl_str_mv Hiragi, Gilberto de Oliveira
dc.subject.por.fl_str_mv Base de germoplasma
Mineração de dados (Computação)
SIBRARGEN
Metodologia de mineração
CRISP/DM
HaDog
topic Base de germoplasma
Mineração de dados (Computação)
SIBRARGEN
Metodologia de mineração
CRISP/DM
HaDog
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
publishDate 2008
dc.date.none.fl_str_mv 2008-03
2009-02-11T16:01:26Z
2009-02-11T16:01:26Z
2009-02-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv HIRAGI, Gilberto de Oliveira. Mineração de dados em base de germoplasma. 2008. 107 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
http://repositorio.unb.br/handle/10482/1187
identifier_str_mv HIRAGI, Gilberto de Oliveira. Mineração de dados em base de germoplasma. 2008. 107 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
url http://repositorio.unb.br/handle/10482/1187
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083131341111296