Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2012 |
| Tipo de documento: | Dissertação |
| Idioma: | por |
| Título da fonte: | Biblioteca Digital de Teses e Dissertações da UNIFOR |
| Texto Completo: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/97315 |
Resumo: | Identificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas. Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear Inteira |
| id |
UFOR_fd4291e0d45af8f4a34c4e8c19e6e43b |
|---|---|
| oai_identifier_str |
oai::97315 |
| network_acronym_str |
UFOR |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository_id_str |
|
| spelling |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textosAprendizado computacionalProgramação linearLinguagem naturalIdentificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas. Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear InteiraIdentifying unreliable or uncertain information in texts is fundamental for information extraction systems, as only information based on facts, free from uncertainties should be communicated to users. The literature on the detection of uncertainty texts contains many works that use Machine Learning (ML) to identify parts of the text that are not based on facts. The work divides the problem into three subproblems of classification and then applying post-processing with heuristics for removal of inconsistencies of outputs of classifiers. This work proposes a hybrid methodology based on ML and Integer Linear Programming (ILP) to detect uncertainties texts. The methodology consists of three steps: (1) the first step consists in pre-processing text for inclusion of linguistic information, (2) the second step consists in using local classifiers trained using AM; (3) the third step is to combine the results of local classifiers using an inference procedure that exploits the global structure of the problem, ruling out the need for the use of heuristics. The main contribution of the proposed methodology as well as this dissertation is the ILP model proposed in step 3. To verify the feasibility of the methodology, we developed a tool that allowed the application on a case study in biomedicine. The contribution of the combination of the output of the classifiers with the use of ILP is examined based on the comparison results produced when this step is replaced by a set of heuristics. The experimental results showed an improvement of 3.7 points when using the measure F of ILP step instead of heuristics. Keywords: Detection of Uncertainty; Machine Learning; Natural Language Processing; Integer Linear ProgrammingSantos, Cícero Nogueira dosPinheiro, Plácido RogérioSantos, Cícero Nogueira dosPinheiro, Plácido RogérioCoelho, Andre Luis VasconcelosSouza, Criston Pereira deUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaQuinho, Marcelo Coelho2012info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/97315https://uol.unifor.br/auth-sophia/exibicao/9526Disponibilidade forma física: Existe obra impressa de código : 90049porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::97315Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
| dc.title.none.fl_str_mv |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| title |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| spellingShingle |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos Quinho, Marcelo Coelho Aprendizado computacional Programação linear Linguagem natural |
| title_short |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| title_full |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| title_fullStr |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| title_full_unstemmed |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| title_sort |
Método híbrido baseado em aprendizado de máquina e programação linear inteira para o problema de detecção de incertezas especulativas em textos |
| author |
Quinho, Marcelo Coelho |
| author_facet |
Quinho, Marcelo Coelho |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Santos, Cícero Nogueira dos Pinheiro, Plácido Rogério Santos, Cícero Nogueira dos Pinheiro, Plácido Rogério Coelho, Andre Luis Vasconcelos Souza, Criston Pereira de Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
| dc.contributor.author.fl_str_mv |
Quinho, Marcelo Coelho |
| dc.subject.por.fl_str_mv |
Aprendizado computacional Programação linear Linguagem natural |
| topic |
Aprendizado computacional Programação linear Linguagem natural |
| description |
Identificar informações incertas ou não confiáveis em textos é fundamental para sistemas de extração de informação, pois somente informações baseadas em fatos, livre de incertezas, devem ser transmitidas para os usuários. A literatura sobre detecção de incerteza em textos contém diversos trabalhos que utilizam Aprendizado de Máquina (AM) para identificar partes do texto que não são baseados em fatos. Os trabalhos dividem o problema em três subproblemas de classificação e em seguida aplicam pós-processamento com heurísticas para retirada de inconsistências das saídas dos classificadores. Esta dissertação propõe uma metodologia híbrida baseada em AM e Programação Linear Inteira (PLI) para detectar incertezas em textos. A metodologia proposta é composta de três etapas: (1) a primeira etapa consiste no pré-processamento do texto para inclusão de informações linguísticas; (2) a segunda etapa, consiste em utilizar classificadores locais treinados com o uso de AM; (3) a terceira etapa, consiste em combinar os resultados dos classificadores locais usando um mecanismo de inferência que explora a estrutura global do problema, descartando a necessidade do uso de heurísticas. A principal contribuição da metodologia proposta, bem como desta dissertação, é o modelo de PLI proposto na etapa 3. Para verificar a viabilidade da metodologia, foi desenvolvida uma ferramenta que permitiu a aplicação num estudo de caso da área biomédica. A contribuição da combinação da saída dos classificadores com o uso de PLI é examinada a partir da comparação dos resultados produzidos quando essa etapa é substituída por um conjunto de heurísticas. Os resultados experimentais evidenciam uma melhora de 3,7 pontos na medida F ao utilizar a etapa de PLI ao invés das heurísticas. Palavras-chave: Detecção de Incertezas; Aprendizado de Máquina; Processamento em Linguagem Natural; Programação Linear Inteira |
| publishDate |
2012 |
| dc.date.none.fl_str_mv |
2012 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/97315 |
| url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/97315 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/9526 Disponibilidade forma física: Existe obra impressa de código : 90049 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
| instname_str |
Universidade de Fortaleza (UNIFOR) |
| instacron_str |
UNIFOR |
| institution |
UNIFOR |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
| repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
| _version_ |
1846365149558996992 |