Um modelo de redes complexas para análise de informações textuais

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: Lopes, G. A. W.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Universitário da FEI, São Bernardo do Campo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.fei.edu.br/handle/FEI/419
Resumo: Analise de textos é uma tarefa inerentemente humana, que envolve processos cognitivos complexos e difíceis de modelar em sistemas computacionais atuais. Esses processos levam em conta usualmente tanto informações léxicas quanto sintáticas, com o objetivo de situar o texto em um nível hierárquico e semântico adequado. Informações no nível léxico estão mais relacionadas com as regras de uma linguagem para geração de palavras, enquanto o nível sintático está geralmente relacionado ao posicionamento das palavras no texto. O conjunto dessas informações (léxica e sintática) leva a geração das informações semânticas. Diversas áreas de aplicações que envolvem vem analise automática de textos devem considerar essas informações a fim de atingir uma gama crescente de objetivos, tais como: recuperação de documentos, comparação de textos, geração automática de diálogos, geração de rótulos, indexação de textos, entre outras. Embora as regras de interpretação de textos sejam conhecidas há bastante tempo, devido a fatores que envolvem principalmente tempo computacional e alta dimensionalidade dos modelos, muitas dessas regras não são levadas em conta em sistemas práticos atuais. Por exemplo, a maioria dos sistemas de ´ recuperação de informações textuais geralmente considera somente a frequência com que as palavras aparecem em um texto, ou o numero de links que apontam para uma mesma página de internet, com o objetivo de ordenar documentos por relevância, quando de uma requisição do usuário. Sabe-se, no entanto, que informações léxicas contidas nas stop-words, palavras com erros e pontuação, bem como informações sintáticas, como a ordem que as palavras aparecem em um texto, não são geralmente consideradas nesses modelos, motivo que pode levar ao chamado gap-semântico entre a requisição do usuário e as informações realmente fornecidas pelo modelo de recuperação. Por outro lado, desde o início da década de 90, estudos em redes complexas vêm ganhando mais e mais atenção dos pesquisadores, sobretudo para a modelagem de informações não somente de textos, mas de dados multimídia. Assim, o presente trabalho apresenta um modelo de Redes Complexas que leva em conta não somente as informações de frequência, mas também a ordem das palavras, co-ocorrência das mesmas, stop-words e palavras erradas. O preço a pagar para este modelo e a utilização do espaço de armazenamento da ordem de Giga-Bytes, o que o torna inviável para ser tratado em computadores comuns. Modelos dessa grandeza ainda não foram completamente estudados e apresentam comportamentos ainda difíceis de se prever e discutir. As características das redes complexas estudadas ha mais de uma década na literatura (por exemplo: tipo de rede, coeficiente de clusterização, distribuição ao de graus, distribuição de pesos, matriz de distâncias, raio, diâmetro, coeficiente espectral, entre outros) permitem o estudo desses modelos para grandes bases de dados. Assim, neste trabalho, propomos o estudo de informações textuais modeladas como uma rede complexa de palavras, tanto para bases específicas quanto genéricas. Estudos preliminares mostram que palavras retiradas de um contexto específico, considerando as características léxicas e sintáticas citadas acima, apresentam um comportamento de rede livre de escala. Também apresentamos heurísticas para o calculo de grandezas físicas computacionalmente intratáveis, como o coeficiente de clusterização ao (CC) da rede. Resultados sugerem que é possível o calculo do CC com erro em torno de 5% para redes densas ou esparsas de até 10.000 palavras.