Detalhes bibliográficos
Ano de defesa: |
2018 |
Autor(a) principal: |
Batista, André Filipe de Moraes |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://www.teses.usp.br/teses/disponiveis/3/3141/tde-04022019-100307/
|
Resumo: |
A ciência é uma organização social: grupos de colaboração independentes trabalham para gerar conhecimento como um bem público. A credibilidade dos trabalhos científicos está enraizada nas evidências que os suportam, as quais incluem a metodologia aplicada, os dados adquiridos e os processos para execução dos experimentos, da análise de dados e da interpretação dos resultados obtidos. O dilúvio de dados sob o qual a atual ciência está inserida revoluciona a forma como as pesquisas são realizadas, resultando em um novo paradigma de ciência baseada em dados. Sob tal paradigma, novas atividades são inseridas no método científico de modo a organizar o processo de geração, curadoria e publicação de dados, beneficiando a comunidade científica com o reuso de conjuntos de dados científicos e a reprodutibilidade de experimentos. Nesse contexto, novas abordagens para a resolução de problemas estão sendo apresentadas, obtendo resultados que antes eram considerados de relevante dificuldade, bem como possibilitando a geração de novos conhecimentos. Diversos portais estão disponibilizando conjuntos de dados resultantes de pesquisas científicas. Todavia, tais portais pouco abordam o contexto sobre os quais os conjuntos de dados foram criados, dificultando a compreensão sobre os dados e abrindo espaço para o uso indevido ou uma interpretação errônea. Poucas são as literaturas que abordam essa problemática, deixando o foco para outros temas que lidam com o volume, a variedade e a velocidade dos dados. Essa pesquisa objetivou definir um modelo de avaliação de conjuntos de dados científicos, por meio da construção de um perfil de aplicação, o qual padroniza a descrição de conjuntos de dados científicos. Essa padronização da descrição é baseada no conceito de dimensão de Veracidade dos dados, definido ao longo da pesquisa, e permite o desenvolvimento de métricas que formam o índice de veracidade de conjuntos de dados científicos. Tal índice busca refletir o nível de detalhamento de um conjunto de dados, com base no uso dos elementos de descrição, que facilitarão o reuso dos dados e a reprodutibilidade dos experimentos científicos. O índice possui duas dimensões: a dimensão intrínseca aos dados, a qual pode ser utilizada como critério de admissão de conjunto de dados em portais de publicação de dados; e a dimensão social, mensurando a adequabilidade de um conjunto de dados para uso em uma área de pesquisa ou de aplicação, por meio da avaliação da comunidade científica. Para o modelo de avaliação proposto, um estudo de caso foi desenvolvido, descrevendo um conjunto de dados proveniente de um projeto científico internacional, o projeto GoAmazon, de modo a validar o modelo proposto entre os pares, demonstrando o potencial da solução no apoio ao reuso dos dados, podendo ser incorporado em portais de dados científicos. |