Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: CARVALHO, Mailton Fernandes de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/44252
Resumo: Atualmente, grandes empresas de software mantêm repositórios com milhares de documentos textuais. Contudo, as variações de terminologia verificadas nos documentos internos dificultam o processamento automático dos textos, tão importante nesses contextos. Esse problema se intensifica no cenário atual, no qual empresas usam sistemas de Recuperação de Informação (RI) para localizar documentos relevantes para uma diversidade de tarefas. Como os termos usados nas consultas nem sempre estão presentes nos documentos relevantes, nem sempre é possível recuperar todos os documentos relevantes para a atividade em curso. Uma opção para melhorar o desempenho de sistemas de processamento de texto é a utilização de Tesauros (dicionários de sinônimos e termos relacionados). Tesauros podem ser usados tanto em sistemas de RI, para expansão automática de consultas, como para melhorar o desempenho de classificadores de texto, ou apenas para prover um vocabulário padrão para composição de documentos internos da empresa. Contudo, dicionários genéricos, como o WordNet, não são apropriados para aplicações de domínio específico, principalmente devido à ambiguidade lexical. Nesse contexto, este trabalho propõe um processo para a geração de tesauros de domínio específico, criados a partir de documentos disponíveis nos repositórios das empresas. O processo recebe como entrada documentos textuais, e extrai desses documentos os termos relevantes para o domínio da Empresa. Em seguida, os termos relacionados são agregados em conjuntos. O processo utiliza técnicas de Processamento de Linguagem Natural, como POS-tagging, RegEx e n-gramas para enriquecer o dicionário de sinônimos com termos compostos, siglas e abreviações. Finalmente, os conjuntos de saída de palavras/termos relacionados são indexados e disponibilizados para consulta manual ou automática. Este trabalho foi desenvolvido no contexto de um projeto de cooperação de pesquisa em Teste de SW entre a Motorola Mobility (uma empresa Lenovo) e o CIn-UFPE. Como tal, nosso estudo de caso se concentrou no domínio de teste de SW. O tesauro construído através do protótipo implementado foi na expansão automática de consultas para melhorar o desempenho de dois sistemas de RI da Motorola Mobility. Testes comparativos revelaram melhores taxas de cobertura de recuperação e melhorias na classificação de documentos relevantes nesses dois sistemas. Esses resultados são muito importantes em cenários do mundo real, nos quais os testadores nem sempre têm tempo para analisar todos os documentos existentes.