Semantic modelling of the Portuguese inquisition archives

Bibliographic Details
Main Author: Pinto, João Cardoso Caldas
Publication Date: 2022
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10451/64265
Summary: Tese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de Ciências
id RCAP_c39723b3321b53644d2237cd679ec4cb
oai_identifier_str oai:repositorio.ulisboa.pt:10451/64265
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Semantic modelling of the Portuguese inquisition archivesWeb SemânticaExtração de informaçãoOntologiasHistóriaBase dados históricasTeses de mestrado - 2023Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaTese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de CiênciasDesde a sua fundação, a ciência de computação tem evoluído a enorme velocidade alterando com frequência a metodologia de trabalho e investigação. Existe, no entanto, algumas áreas em que a evolução ficou parada ou os avanços são lentos. Um dessas áreas é o armazenamento e interação de dados de eventos históricos. O modelo tradicional que utiliza base de dados relacionais é por vezes inadequado pois tem dificuldades em preservar o contexto da informação. Nesta dissertação propomos uma forma alternativa de armazenar e interagir com dados e eventos históricos apresentando um modelo semântico para os arquivos da inquisição portuguesa. O projeto foi iniciado com o estudo do trabalho já realizado na área do armazenamento digital de material histórico. Foram analisadas soluções tradicionais utilizando base de dados relacionais e soluções utilizando técnicas de web semântica. Escolhemos os dois trabalhos em cada solução que nos pareceram mais indicados, a base de dados histórica de Estocolmo onde é preservado os dados de todos os habitantes da cidade durante cinquenta anos entre os séculos dezanove e vinte. Escolhemos igualmente a ontologia “stole” que utilizando técnicas da web semântica mantem uma base histórica de documentos legislativos Italianos. Após este processo extraímos a informação dos processos da inquisição portuguesa contidos na página de internet dos arquivos da Torre do Tombo através de um scrapper para um ficheiro de texto. Depois deste processo estar concluído revelou-se necessário iniciar o tratamento e transformação dos dados obtidos, corrigindo erros de codificação e da inserção original dos dados, extraindo dos dados informação extra como por exemplo as coordenadas de latitude e longitude da morada e local de nascimento e a categorização de diferentes informações como por exemplo a profissão, estado social ou acusações. A informação foi estruturada e inserido num ficheiro JSON. Concluído o processo iniciou-se uma segunda fase do projeto. Foi feito um estudo dos dados contidos no arquivo da Inquisição Portuguesa de modo a construir um modelo semântico com capacidade de albergar a informação previamente tratada. Num processo progressivo e construiu-se o modelo utilizando a linguagem de modelação conhecida por “Web Ontology Language”. Criaram-se as classes, propriedades de dados, propriedades de objetos e restrições adequadas ao modelo e resultado pretendido. De seguida utilizando a linguagem de programação Python, a biblioteca owlready2 e técnicas de computação, iniciou-se o exigente e demorado processo de inserção dos dados tratados no modelo. A primeira preocupação foi inserir e fazer as respetivas ligações dos vários países, distritos, municípios e localidades presentes nos arquivos da Inquisição Portuguesa. Após esse processo inserimos as instâncias das profissões, acusações, sentenças e estatuto social tendo o cuidado de fazer a respetiva ligação entre as instâncias e a sua respetiva categorização. De seguida iniciamos o processo de inserir as instâncias das pessoas propriamente ditas. Primeiro inserimos os dados literais como o nome e idade, em seguida fez-se a ligação entre a instância da pessoa e os objetos já inseridos como a profissão, localidade, acusação e estatuto social. Por fim realizamos o processo de inserir o pai, mãe e cônjuge da pessoa, como queríamos evitar criar pessoas se estas já existissem no modelo utilizamos algoritmos de pesquisa para tentar procurar se estes já existiam no modelo, se existissem o algoritmo fazia a ligação caso contrário criava a pessoa e só depois a ligação era efetuada. Construímos de seguidas uma série de regras na linguagem SWRL que permitem a inferência de relações familiares que não estão explicitas nos arquivos da Inquisição como por exemplo avô, avó, irmão, irmã, tio, tia, etc. Utilizando a linguagem de query SPARQL foi verificado se o resultado obtido era o pretendido, foram necessários múltiplos ajustes aos algoritmos para obter uma representação correta dos dados no modelo. Este processo foi particularmente demorado devido ao elevado número de processos presente no arquivo da Inquisição Portuguesa superior a 25.000 processos fazendo com que a inserção dos dados com os algoritmos de pesquisa fosse superior a doze horas. A última fase do projeto foi a construção de uma página de internet que permitisse a navegação e exploração do modelo. Através do framework Django e da biblioteca owlready2 procedeu-se ao desenvolvimento de um portal que permitisse a navegação do modelo. Neste portal é possível procurar processos de Inquisição de pessoas pelo seu nome, localidade, profissão, acusação, etc. O portal permite a pesquisa através de um query na linguagem SPARQL. Após a pesquisa, o portal permite a exploração do processo em si detalhando não só toda a informação do processo em si como permitindo através de links explorar toda a informação associada aos vários campos como, por exemplo a categoria da profissão ou das várias acusações. Outra funcionalidade é que permite igualmente ir diretamente para os dados dos familiares da pessoa em questão. O portal permite ainda uma listagem automática das classes e propriedades do modelo possibilitando a exploração do seu nome, restrições e meta informação.In this work we present a semantic model of the Portuguese holy inquisition archives. This model is ontology based using semantic web techniques. It allows storing, querying and browsing the inquisition archives. From the ground up we extracted the Portuguese Holy Inquisition data from the archives of Torre do Tombo. This data included personal information of a given person like the name, address and profession as well as the process itself like the accusation and sentence. This data had errors, typos and erroneous information that was necessary to filter and transform using proper algorithms and techniques. Afterwards the structure of the ontology was build creating classes, subclasses, object properties, data properties and restrictions. The data was then inserted into the structure using algorithms developed in Python. Logic rules were constructed to allow a reasoner to infer family relationships between the persons present in the archives. The work was concluded by building a web application that allows to navigate all the information in the archives enabling to search among others by a person name, region, profession and accusation. In this work we exhibit the viability of the semantic web to store historical information and the fresh rich knowledge it can give to academics and historians.Falcão, André Osório e Cruz de AzerêdoRepositório da Universidade de LisboaPinto, João Cardoso Caldas2024-04-15T15:07:27Z202320222023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/64265TID:203493788enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T15:14:28Zoai:repositorio.ulisboa.pt:10451/64265Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T03:37:43.428735Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Semantic modelling of the Portuguese inquisition archives
title Semantic modelling of the Portuguese inquisition archives
spellingShingle Semantic modelling of the Portuguese inquisition archives
Pinto, João Cardoso Caldas
Web Semântica
Extração de informação
Ontologias
História
Base dados históricas
Teses de mestrado - 2023
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Semantic modelling of the Portuguese inquisition archives
title_full Semantic modelling of the Portuguese inquisition archives
title_fullStr Semantic modelling of the Portuguese inquisition archives
title_full_unstemmed Semantic modelling of the Portuguese inquisition archives
title_sort Semantic modelling of the Portuguese inquisition archives
author Pinto, João Cardoso Caldas
author_facet Pinto, João Cardoso Caldas
author_role author
dc.contributor.none.fl_str_mv Falcão, André Osório e Cruz de Azerêdo
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Pinto, João Cardoso Caldas
dc.subject.por.fl_str_mv Web Semântica
Extração de informação
Ontologias
História
Base dados históricas
Teses de mestrado - 2023
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Web Semântica
Extração de informação
Ontologias
História
Base dados históricas
Teses de mestrado - 2023
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Tese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de Ciências
publishDate 2022
dc.date.none.fl_str_mv 2022
2023
2023-01-01T00:00:00Z
2024-04-15T15:07:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/64265
TID:203493788
url http://hdl.handle.net/10451/64265
identifier_str_mv TID:203493788
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833601770311385088