Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Machado, Fhabiana Thieli dos Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.ufsm.br/handle/1/17959
Resumo: NoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms.