Detalhes bibliográficos
Ano de defesa: |
2013 |
Autor(a) principal: |
Oliveira, Hilário Tomaz Alves de |
Orientador(a): |
Freitas, Frederico Luiz Gonçalves de |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/11846
|
Resumo: |
A Web Semântica proposta por Berners-Lee tem o objetivo de tornar explícito o significado dos dados disponíveis na Web. Com isso, é possível que esses dados sejam processados tanto por pessoas quanto por agentes inteligentes que passam a ter acesso à semântica dos dados presentes na Web. Entretanto, para que a Web Semântica se torne uma realidade, é necessário que grande parte desses dados estejam anotados semanticamente, algo que não ocorre atualmente. Como forma de solucionar esse problema, é crescente o interesse no desenvolvimento de sistemas capazes de extrair conteúdo semântico automaticamente a partir de fontes de dados não estruturados. Nesse contexto, o objetivo desta dissertação é definir um método automático, não supervisionado e independente de domínio capaz de extrair instâncias de classes ontológicas a partir de fontes de dados não estruturados escritos em linguagem natural disponíveis na Web. A metodologia proposta é guiada por uma ontologia de entrada que define quais conceitos devem ser povoados, e por um conjunto de padrões linguísticos independentes de domínio usados para extrair e classificar os candidatos a instâncias. Com o objetivo de obter uma alta taxa de precisão, neste trabalho é proposto uma Medida de Confiança Combinada (MCC), cujo objetivo é integrar diferentes medidas e heurísticas para classificar os candidatos a instâncias extraídos. Essa medida de confiança combinada foi definida a partir dos resultados de uma exaustiva análise comparativa entre vários parâmetros analisados. O método proposto é capaz ainda de extrair novos padrões linguísticos expandindo o conjunto inicial de padrões adotados. Os resultados obtidos com os experimentos realizados em diferentes domínios indicam que a metodologia proposta é capaz de extrair uma grande quantidade de instâncias de classes, além de integrar novos padrões linguísticos a cada iteração executada. |