Semantic modelling of the Portuguese inquisition archives
| Main Author: | |
|---|---|
| Publication Date: | 2022 |
| Format: | Master thesis |
| Language: | eng |
| Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Download full: | http://hdl.handle.net/10451/64265 |
Summary: | Tese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de Ciências |
| id |
RCAP_c39723b3321b53644d2237cd679ec4cb |
|---|---|
| oai_identifier_str |
oai:repositorio.ulisboa.pt:10451/64265 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Semantic modelling of the Portuguese inquisition archivesWeb SemânticaExtração de informaçãoOntologiasHistóriaBase dados históricasTeses de mestrado - 2023Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaTese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de CiênciasDesde a sua fundação, a ciência de computação tem evoluído a enorme velocidade alterando com frequência a metodologia de trabalho e investigação. Existe, no entanto, algumas áreas em que a evolução ficou parada ou os avanços são lentos. Um dessas áreas é o armazenamento e interação de dados de eventos históricos. O modelo tradicional que utiliza base de dados relacionais é por vezes inadequado pois tem dificuldades em preservar o contexto da informação. Nesta dissertação propomos uma forma alternativa de armazenar e interagir com dados e eventos históricos apresentando um modelo semântico para os arquivos da inquisição portuguesa. O projeto foi iniciado com o estudo do trabalho já realizado na área do armazenamento digital de material histórico. Foram analisadas soluções tradicionais utilizando base de dados relacionais e soluções utilizando técnicas de web semântica. Escolhemos os dois trabalhos em cada solução que nos pareceram mais indicados, a base de dados histórica de Estocolmo onde é preservado os dados de todos os habitantes da cidade durante cinquenta anos entre os séculos dezanove e vinte. Escolhemos igualmente a ontologia “stole” que utilizando técnicas da web semântica mantem uma base histórica de documentos legislativos Italianos. Após este processo extraímos a informação dos processos da inquisição portuguesa contidos na página de internet dos arquivos da Torre do Tombo através de um scrapper para um ficheiro de texto. Depois deste processo estar concluído revelou-se necessário iniciar o tratamento e transformação dos dados obtidos, corrigindo erros de codificação e da inserção original dos dados, extraindo dos dados informação extra como por exemplo as coordenadas de latitude e longitude da morada e local de nascimento e a categorização de diferentes informações como por exemplo a profissão, estado social ou acusações. A informação foi estruturada e inserido num ficheiro JSON. Concluído o processo iniciou-se uma segunda fase do projeto. Foi feito um estudo dos dados contidos no arquivo da Inquisição Portuguesa de modo a construir um modelo semântico com capacidade de albergar a informação previamente tratada. Num processo progressivo e construiu-se o modelo utilizando a linguagem de modelação conhecida por “Web Ontology Language”. Criaram-se as classes, propriedades de dados, propriedades de objetos e restrições adequadas ao modelo e resultado pretendido. De seguida utilizando a linguagem de programação Python, a biblioteca owlready2 e técnicas de computação, iniciou-se o exigente e demorado processo de inserção dos dados tratados no modelo. A primeira preocupação foi inserir e fazer as respetivas ligações dos vários países, distritos, municípios e localidades presentes nos arquivos da Inquisição Portuguesa. Após esse processo inserimos as instâncias das profissões, acusações, sentenças e estatuto social tendo o cuidado de fazer a respetiva ligação entre as instâncias e a sua respetiva categorização. De seguida iniciamos o processo de inserir as instâncias das pessoas propriamente ditas. Primeiro inserimos os dados literais como o nome e idade, em seguida fez-se a ligação entre a instância da pessoa e os objetos já inseridos como a profissão, localidade, acusação e estatuto social. Por fim realizamos o processo de inserir o pai, mãe e cônjuge da pessoa, como queríamos evitar criar pessoas se estas já existissem no modelo utilizamos algoritmos de pesquisa para tentar procurar se estes já existiam no modelo, se existissem o algoritmo fazia a ligação caso contrário criava a pessoa e só depois a ligação era efetuada. Construímos de seguidas uma série de regras na linguagem SWRL que permitem a inferência de relações familiares que não estão explicitas nos arquivos da Inquisição como por exemplo avô, avó, irmão, irmã, tio, tia, etc. Utilizando a linguagem de query SPARQL foi verificado se o resultado obtido era o pretendido, foram necessários múltiplos ajustes aos algoritmos para obter uma representação correta dos dados no modelo. Este processo foi particularmente demorado devido ao elevado número de processos presente no arquivo da Inquisição Portuguesa superior a 25.000 processos fazendo com que a inserção dos dados com os algoritmos de pesquisa fosse superior a doze horas. A última fase do projeto foi a construção de uma página de internet que permitisse a navegação e exploração do modelo. Através do framework Django e da biblioteca owlready2 procedeu-se ao desenvolvimento de um portal que permitisse a navegação do modelo. Neste portal é possível procurar processos de Inquisição de pessoas pelo seu nome, localidade, profissão, acusação, etc. O portal permite a pesquisa através de um query na linguagem SPARQL. Após a pesquisa, o portal permite a exploração do processo em si detalhando não só toda a informação do processo em si como permitindo através de links explorar toda a informação associada aos vários campos como, por exemplo a categoria da profissão ou das várias acusações. Outra funcionalidade é que permite igualmente ir diretamente para os dados dos familiares da pessoa em questão. O portal permite ainda uma listagem automática das classes e propriedades do modelo possibilitando a exploração do seu nome, restrições e meta informação.In this work we present a semantic model of the Portuguese holy inquisition archives. This model is ontology based using semantic web techniques. It allows storing, querying and browsing the inquisition archives. From the ground up we extracted the Portuguese Holy Inquisition data from the archives of Torre do Tombo. This data included personal information of a given person like the name, address and profession as well as the process itself like the accusation and sentence. This data had errors, typos and erroneous information that was necessary to filter and transform using proper algorithms and techniques. Afterwards the structure of the ontology was build creating classes, subclasses, object properties, data properties and restrictions. The data was then inserted into the structure using algorithms developed in Python. Logic rules were constructed to allow a reasoner to infer family relationships between the persons present in the archives. The work was concluded by building a web application that allows to navigate all the information in the archives enabling to search among others by a person name, region, profession and accusation. In this work we exhibit the viability of the semantic web to store historical information and the fresh rich knowledge it can give to academics and historians.Falcão, André Osório e Cruz de AzerêdoRepositório da Universidade de LisboaPinto, João Cardoso Caldas2024-04-15T15:07:27Z202320222023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/64265TID:203493788enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T15:14:28Zoai:repositorio.ulisboa.pt:10451/64265Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T03:37:43.428735Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Semantic modelling of the Portuguese inquisition archives |
| title |
Semantic modelling of the Portuguese inquisition archives |
| spellingShingle |
Semantic modelling of the Portuguese inquisition archives Pinto, João Cardoso Caldas Web Semântica Extração de informação Ontologias História Base dados históricas Teses de mestrado - 2023 Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| title_short |
Semantic modelling of the Portuguese inquisition archives |
| title_full |
Semantic modelling of the Portuguese inquisition archives |
| title_fullStr |
Semantic modelling of the Portuguese inquisition archives |
| title_full_unstemmed |
Semantic modelling of the Portuguese inquisition archives |
| title_sort |
Semantic modelling of the Portuguese inquisition archives |
| author |
Pinto, João Cardoso Caldas |
| author_facet |
Pinto, João Cardoso Caldas |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Falcão, André Osório e Cruz de Azerêdo Repositório da Universidade de Lisboa |
| dc.contributor.author.fl_str_mv |
Pinto, João Cardoso Caldas |
| dc.subject.por.fl_str_mv |
Web Semântica Extração de informação Ontologias História Base dados históricas Teses de mestrado - 2023 Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| topic |
Web Semântica Extração de informação Ontologias História Base dados históricas Teses de mestrado - 2023 Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| description |
Tese de Mestrado, Engenharia Informática (Interação e Conhecimento), 2022, Universidade de Lisboa, Faculdade de Ciências |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022 2023 2023-01-01T00:00:00Z 2024-04-15T15:07:27Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/64265 TID:203493788 |
| url |
http://hdl.handle.net/10451/64265 |
| identifier_str_mv |
TID:203493788 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833601770311385088 |