Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Penteado, Bruno Elias
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092020-175138/
Resumo: Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.