Export Ready — 

Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"

Bibliographic Details
Main Author: Emídio, Marco
Publication Date: 2011
Format: Master thesis
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10174/15193
Summary: A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/.
id RCAP_581edece8fffe90de61dc3a609dc648c
oai_identifier_str oai:dspace.uevora.pt:10174/15193
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/.Universidade de Évora2015-09-01T09:49:04Z2015-09-012011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/15193http://hdl.handle.net/10174/15193porDepartamento de Informáticateses@bib.uevora.pt498Emídio, Marcoinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-01-03T18:57:17Zoai:dspace.uevora.pt:10174/15193Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T12:03:48.174556Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
title Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
spellingShingle Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
Emídio, Marco
title_short Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
title_full Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
title_fullStr Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
title_full_unstemmed Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
title_sort Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
author Emídio, Marco
author_facet Emídio, Marco
author_role author
dc.contributor.author.fl_str_mv Emídio, Marco
description A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/.
publishDate 2011
dc.date.none.fl_str_mv 2011-01-01T00:00:00Z
2015-09-01T09:49:04Z
2015-09-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10174/15193
http://hdl.handle.net/10174/15193
url http://hdl.handle.net/10174/15193
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Departamento de Informática
teses@bib.uevora.pt
498
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de Évora
publisher.none.fl_str_mv Universidade de Évora
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833592485112184832