Extração automática de relações semânticas a partir de dados ruidosos

Bibliographic Details
Main Author: Sardinha, Diorge Brognara
Publication Date: 2020
Format: Master thesis
Language: por
Source: Repositório Institucional da UFSCAR
Download full: https://repositorio.ufscar.br/handle/20.500.14289/13209
Summary: Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.
id SCAR_91f8d63ee9501a8cf80ea0f0ca0e02c6
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/13209
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Sardinha, Diorge BrognaraCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/937392087785997573a9f2bf-35a0-4e7c-bb6c-5e6d3d5f85842020-09-02T20:07:42Z2020-09-02T20:07:42Z2020-03-09SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/13209.https://repositorio.ufscar.br/handle/20.500.14289/13209Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.Extração de relações é uma tarefa realizada em sistemas de aprendizado contínuo a partir de fontes textuais, com o objetivo de encontrar relações semânticas entre categorias ou entidades. A NELL é um sistema desse tipo, que encontra problemas na extração de relações devido a suas propriedades de supervisionamento e rotulação. Um dos algoritmos para essa tarefa desenvolvidos para a NELL é o OntExt, que apresenta dificuldades de execução devido a entradas ruidosas e ao seu custo computacional. No entanto, o algoritmo possui propriedades interessantes para o contexto da aplicação, que não estão presentes em outros métodos. Neste trabalho, é proposta uma variante do algoritmo a fim de aliviar as principais deficiências identificadas, que utiliza uma estrutura de grafo, e é flexível para tratamento de outliers. O novo método proposto possui precisão comparável ao existente, e uma revocação maior. Também é apresentada uma forma eficiente de representar o problema através de uma estrutura esparsa, reduzindo o custo computacional da ordem de minutos para segundos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessExtração da informaçãoExtração de relaçõesAprendizado contínuoInformation extractionRelationship extractionContinuous learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOExtração automática de relações semânticas a partir de dados ruidososAutomatic relationship extraction from noisy datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao 2020-09-02.pdfdissertacao 2020-09-02.pdfDissertação mestrado - Diorge Brognara Sardinhaapplication/pdf713865https://repositorio.ufscar.br/bitstreams/81e08261-a692-4e19-99fa-3ce37cbe84b5/download57e46b6144bed1f7dbfbb78784773f9bMD54trueAnonymousREADCarta Comprovante Assinada.pdfCarta Comprovante Assinada.pdfCarta Comprovante Assinada - Mestrado Diorge Brognara Sardinhaapplication/pdf116189https://repositorio.ufscar.br/bitstreams/c814bcce-34c8-48c8-b274-58b772826fa1/downloade3c420ac8a546a2d0901e754de39fd1eMD55falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/dc0e8104-19d5-44c2-b843-cacae9838585/downloade39d27027a6cc9cb039ad269a5db8e34MD56falseAnonymousREADTEXTdissertacao 2020-09-02.pdf.txtdissertacao 2020-09-02.pdf.txtExtracted texttext/plain78818https://repositorio.ufscar.br/bitstreams/7d095c32-4fe4-4162-9b58-e5c11f3cfae0/download058218e1de22883b6714db894d7255e2MD511falseAnonymousREADCarta Comprovante Assinada.pdf.txtCarta Comprovante Assinada.pdf.txtExtracted texttext/plain1574https://repositorio.ufscar.br/bitstreams/ccfd820c-1559-481b-a0e6-3dd851d8532f/download837f4ab599b11abe71ea0ed7316c7f3eMD513falseAnonymousREADTHUMBNAILdissertacao 2020-09-02.pdf.jpgdissertacao 2020-09-02.pdf.jpgIM Thumbnailimage/jpeg4735https://repositorio.ufscar.br/bitstreams/6fb3af67-d448-40d1-9a44-90892d49dc12/download4a5b5d43a37821fff0ed14074d9cdedeMD512falseAnonymousREADCarta Comprovante Assinada.pdf.jpgCarta Comprovante Assinada.pdf.jpgIM Thumbnailimage/jpeg13463https://repositorio.ufscar.br/bitstreams/de21bd41-af79-4704-bdfe-bdf2fd962d6c/download7c2c967ac1044be38938dce696a00137MD514falseAnonymousREAD20.500.14289/132092025-02-05 18:32:40.533http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/13209https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T21:32:40Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Extração automática de relações semânticas a partir de dados ruidosos
dc.title.alternative.eng.fl_str_mv Automatic relationship extraction from noisy data
title Extração automática de relações semânticas a partir de dados ruidosos
spellingShingle Extração automática de relações semânticas a partir de dados ruidosos
Sardinha, Diorge Brognara
Extração da informação
Extração de relações
Aprendizado contínuo
Information extraction
Relationship extraction
Continuous learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Extração automática de relações semânticas a partir de dados ruidosos
title_full Extração automática de relações semânticas a partir de dados ruidosos
title_fullStr Extração automática de relações semânticas a partir de dados ruidosos
title_full_unstemmed Extração automática de relações semânticas a partir de dados ruidosos
title_sort Extração automática de relações semânticas a partir de dados ruidosos
author Sardinha, Diorge Brognara
author_facet Sardinha, Diorge Brognara
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/9373920877859975
dc.contributor.author.fl_str_mv Sardinha, Diorge Brognara
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.authorID.fl_str_mv 73a9f2bf-35a0-4e7c-bb6c-5e6d3d5f8584
contributor_str_mv Cerri, Ricardo
dc.subject.por.fl_str_mv Extração da informação
Extração de relações
Aprendizado contínuo
topic Extração da informação
Extração de relações
Aprendizado contínuo
Information extraction
Relationship extraction
Continuous learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Information extraction
Relationship extraction
Continuous learning
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-09-02T20:07:42Z
dc.date.available.fl_str_mv 2020-09-02T20:07:42Z
dc.date.issued.fl_str_mv 2020-03-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/13209.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/13209
identifier_str_mv SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/13209.
url https://repositorio.ufscar.br/handle/20.500.14289/13209
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c997f5ee-db84-40ed-8971-521dd105f2d1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/81e08261-a692-4e19-99fa-3ce37cbe84b5/download
https://repositorio.ufscar.br/bitstreams/c814bcce-34c8-48c8-b274-58b772826fa1/download
https://repositorio.ufscar.br/bitstreams/dc0e8104-19d5-44c2-b843-cacae9838585/download
https://repositorio.ufscar.br/bitstreams/7d095c32-4fe4-4162-9b58-e5c11f3cfae0/download
https://repositorio.ufscar.br/bitstreams/ccfd820c-1559-481b-a0e6-3dd851d8532f/download
https://repositorio.ufscar.br/bitstreams/6fb3af67-d448-40d1-9a44-90892d49dc12/download
https://repositorio.ufscar.br/bitstreams/de21bd41-af79-4704-bdfe-bdf2fd962d6c/download
bitstream.checksum.fl_str_mv 57e46b6144bed1f7dbfbb78784773f9b
e3c420ac8a546a2d0901e754de39fd1e
e39d27027a6cc9cb039ad269a5db8e34
058218e1de22883b6714db894d7255e2
837f4ab599b11abe71ea0ed7316c7f3e
4a5b5d43a37821fff0ed14074d9cdede
7c2c967ac1044be38938dce696a00137
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1834468967653048320