Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
Main Author: | |
---|---|
Publication Date: | 2011 |
Format: | Master thesis |
Language: | por |
Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Download full: | http://hdl.handle.net/10174/15193 |
Summary: | A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/. |
id |
RCAP_581edece8fffe90de61dc3a609dc648c |
---|---|
oai_identifier_str |
oai:dspace.uevora.pt:10174/15193 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/.Universidade de Évora2015-09-01T09:49:04Z2015-09-012011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/15193http://hdl.handle.net/10174/15193porDepartamento de Informáticateses@bib.uevora.pt498Emídio, Marcoinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-01-03T18:57:17Zoai:dspace.uevora.pt:10174/15193Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T12:03:48.174556Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
title |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
spellingShingle |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" Emídio, Marco |
title_short |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
title_full |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
title_fullStr |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
title_full_unstemmed |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
title_sort |
Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social" |
author |
Emídio, Marco |
author_facet |
Emídio, Marco |
author_role |
author |
dc.contributor.author.fl_str_mv |
Emídio, Marco |
description |
A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/. |
publishDate |
2011 |
dc.date.none.fl_str_mv |
2011-01-01T00:00:00Z 2015-09-01T09:49:04Z 2015-09-01 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10174/15193 http://hdl.handle.net/10174/15193 |
url |
http://hdl.handle.net/10174/15193 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
Departamento de Informática teses@bib.uevora.pt 498 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade de Évora |
publisher.none.fl_str_mv |
Universidade de Évora |
dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833592485112184832 |