Extrair conhecimento de bases de dados: o caso dos provérbios.

Bibliographic Details
Main Author: Mendes, Armando B.
Publication Date: 2009
Other Authors: Funk, Matthias, Funk, Gabriela
Format: Article
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10400.3/2155
Summary: Para apoiar actividades de gestão de dados de um projecto para identificação de provérbios, tem vindo a ser construída uma base de dados ao longo de vários anos. No momento da presente análise, esta base de dados integrava informação sobre 25.000 expressões idiomáticas, incluindo mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Neste artigo, descreve-se um projecto em curso com o objectivo de extrair conhecimento desta base de dados, de modo a conhecer melhor os inquiridos, o seu grau de reconhecimento de provérbios e a relação com os locais onde têm vivido. De modo a alcançar os objectivos delineados, propõe-se a utilização de metodologias de prospecção de dados (data mining), com passos como: preparação e pré-processamento, limpeza (data cleansing) e técnicas de redução de dados. A fase de preparação é cuidadosamente trabalhada, uma vez que nem sempre é descrita em estudos de prospecção de dados, apesar de constituir um passo fundamental na análise de dados provenientes de bases de dados. Para a descoberta de conhecimento, após a produção de uma tabela de dados desnormalizada, utilizam-se modelos de regressão linear múltipla e árvores de regressão segundo dois algoritmos distintos. Os resultados são comparados com o conhecimento de domínio paremiológico, com algumas conclusões inesperadas.
id RCAP_c9a86b9719ee863feb5394751d6404b2
oai_identifier_str oai:repositorio.uac.pt:10400.3/2155
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Extrair conhecimento de bases de dados: o caso dos provérbios.Árvores de RegressãoGeração de ConhecimentoProvérbiosPreparação de Dados e Pré-ProcessamentoData MiningKnowledge GenerationProverbsData Preparation and Pre-ProcessingRegression TreesPara apoiar actividades de gestão de dados de um projecto para identificação de provérbios, tem vindo a ser construída uma base de dados ao longo de vários anos. No momento da presente análise, esta base de dados integrava informação sobre 25.000 expressões idiomáticas, incluindo mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Neste artigo, descreve-se um projecto em curso com o objectivo de extrair conhecimento desta base de dados, de modo a conhecer melhor os inquiridos, o seu grau de reconhecimento de provérbios e a relação com os locais onde têm vivido. De modo a alcançar os objectivos delineados, propõe-se a utilização de metodologias de prospecção de dados (data mining), com passos como: preparação e pré-processamento, limpeza (data cleansing) e técnicas de redução de dados. A fase de preparação é cuidadosamente trabalhada, uma vez que nem sempre é descrita em estudos de prospecção de dados, apesar de constituir um passo fundamental na análise de dados provenientes de bases de dados. Para a descoberta de conhecimento, após a produção de uma tabela de dados desnormalizada, utilizam-se modelos de regressão linear múltipla e árvores de regressão segundo dois algoritmos distintos. Os resultados são comparados com o conhecimento de domínio paremiológico, com algumas conclusões inesperadas.ABSTRACT: For data management activities in a project for proverbial sentences identification, a data base has being assembled during several years. This data base collects, in the moment of this study, information about 25.000 idiomatic sentences, including more than one thousand valid answers for proverbial sentences recognition surveys. In this article a project is described with the purpose to extract knowledge from this data base, in order to better characterize the individuals participating in the surveys about their level of proverbial recognition and the influence of the locations they have been living. In order to reach the study objectives we use data mining methodologies including: data preparation and preprocessing, data cleansing, and data reduction techniques. This data preparation stage is carefully described because we believe this is sometimes forgotten in statistical data mining studies and is a fundamental step to attain any data mining study objective. For data analysis, after a denormalized file is produced, we use linear regression models and regression trees with two different algorithms. The descriptive results are compared with paremiology domain knowledge, with some unexpected conclusions.Universidade dos AçoresRepositório da Universidade dos AçoresMendes, Armando B.Funk, MatthiasFunk, Gabriela2013-07-23T16:05:41Z2009-082013-07-18T17:41:15Z2009-08-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttp://hdl.handle.net/10400.3/2155porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-07T10:04:08Zoai:repositorio.uac.pt:10400.3/2155Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T00:34:29.114918Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Extrair conhecimento de bases de dados: o caso dos provérbios.
title Extrair conhecimento de bases de dados: o caso dos provérbios.
spellingShingle Extrair conhecimento de bases de dados: o caso dos provérbios.
Mendes, Armando B.
Árvores de Regressão
Geração de Conhecimento
Provérbios
Preparação de Dados e Pré-Processamento
Data Mining
Knowledge Generation
Proverbs
Data Preparation and Pre-Processing
Regression Trees
title_short Extrair conhecimento de bases de dados: o caso dos provérbios.
title_full Extrair conhecimento de bases de dados: o caso dos provérbios.
title_fullStr Extrair conhecimento de bases de dados: o caso dos provérbios.
title_full_unstemmed Extrair conhecimento de bases de dados: o caso dos provérbios.
title_sort Extrair conhecimento de bases de dados: o caso dos provérbios.
author Mendes, Armando B.
author_facet Mendes, Armando B.
Funk, Matthias
Funk, Gabriela
author_role author
author2 Funk, Matthias
Funk, Gabriela
author2_role author
author
dc.contributor.none.fl_str_mv Repositório da Universidade dos Açores
dc.contributor.author.fl_str_mv Mendes, Armando B.
Funk, Matthias
Funk, Gabriela
dc.subject.por.fl_str_mv Árvores de Regressão
Geração de Conhecimento
Provérbios
Preparação de Dados e Pré-Processamento
Data Mining
Knowledge Generation
Proverbs
Data Preparation and Pre-Processing
Regression Trees
topic Árvores de Regressão
Geração de Conhecimento
Provérbios
Preparação de Dados e Pré-Processamento
Data Mining
Knowledge Generation
Proverbs
Data Preparation and Pre-Processing
Regression Trees
description Para apoiar actividades de gestão de dados de um projecto para identificação de provérbios, tem vindo a ser construída uma base de dados ao longo de vários anos. No momento da presente análise, esta base de dados integrava informação sobre 25.000 expressões idiomáticas, incluindo mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Neste artigo, descreve-se um projecto em curso com o objectivo de extrair conhecimento desta base de dados, de modo a conhecer melhor os inquiridos, o seu grau de reconhecimento de provérbios e a relação com os locais onde têm vivido. De modo a alcançar os objectivos delineados, propõe-se a utilização de metodologias de prospecção de dados (data mining), com passos como: preparação e pré-processamento, limpeza (data cleansing) e técnicas de redução de dados. A fase de preparação é cuidadosamente trabalhada, uma vez que nem sempre é descrita em estudos de prospecção de dados, apesar de constituir um passo fundamental na análise de dados provenientes de bases de dados. Para a descoberta de conhecimento, após a produção de uma tabela de dados desnormalizada, utilizam-se modelos de regressão linear múltipla e árvores de regressão segundo dois algoritmos distintos. Os resultados são comparados com o conhecimento de domínio paremiológico, com algumas conclusões inesperadas.
publishDate 2009
dc.date.none.fl_str_mv 2009-08
2009-08-01T00:00:00Z
2013-07-23T16:05:41Z
2013-07-18T17:41:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.3/2155
url http://hdl.handle.net/10400.3/2155
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade dos Açores
publisher.none.fl_str_mv Universidade dos Açores
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833600598966009856