DeepNLPF : um framework para integração de análises linguísticas e anotação semântica de documentos textuais
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/37648 |
Resumo: | Atualmente as empresas vêm implementando novos modelos de negócios que dependem intensamente do Processamento de Linguagem Natural (PLN) em documentos textuais a fim de extrair informações relevantes de diversas fontes, incluindo comércio eletrônico, documentos de domínio específicos, serviços públicos, mídias sociais, etc. A implementação de um sistema de PLN requer, entre outras coisas, um considerável esforço de engenharia de software para: a criação de estruturas de dados para representação da linguagem humana; a aplicação de tais ferramentas no enriquecimento da representação textual através da análise linguística em diversos níveis (léxico, sintático e semântico); a leitura e interpretação das anotações geradas dos corpus, a criação de recursos linguísticos, entre outros. Embora existam inúmeras ferramentas de PLN amplamente utilizadas em tarefas de PLN, extração, anotação e correção linguísticas, cada uma delas fornece apenas cobertura parcial. Além disso, essas ferramentas são desenvolvidas em linguagens de programação diferentes e são disponibilizadas sem nenhuma padronização na entrada e saída de dados, o que dificulta a sua interoperabilidade devido a incompatibilidade entre as APIs, formatos de dados de saída (representação) e a tokenização básica do texto, para citar algumas. Devido a isso, selecionar as ferramentas e suas respectivas análises linguísticas de acordo com o interesse de aplicação de um usuário requer normalmente muito tempo, principalmente quando se deseja usá-las em conjunto. O objetivo deste trabalho é analisar algumas ferramentas de PLN disponíveis, propor, implementar e avaliar uma framework que encapsule enumeras análises linguísticas permitindo que os desenvolvedores de aplicações possam não somente executar pipelines de análises linguísticas mas também possam integrar ferramentas de terceiros. Além disso, visa-se fornecer uma interface gráfica (GUI) ao usuário para exploração dos recursos sem a necessidade de escrever código. A versão ora proposta do DeepNLPF é formada pela integração de algumas ferramentas de PLN de terceiros que foram selecionadas após uma revisão da literatura. Como contribuições deste trabalho, destacam-se: i) wrappers python para utilização da ferramenta de PLN CogComp NLP, SEMAFOR e SupWSD. ii) Bibliotecas Python para estatística de dados textuais, notificações, execução de scripts(Java, R, Shell Script, C/C++), arquitetura de plugins. iii) um framework para integração e customização de análises linguística e anotação de documentos. Finalmente, três experimentos realizados mostram que o DeepNLPF obteve um melhor desempenho em relação ao processamento sequencial das ferramentas de PLN testadas. Mais precisamente, cerca de 60% mais rápido em termos de tempo de processamento. |