"Avaliação de métodos para a extração automática de terminologia de textos em português"

Detalhes bibliográficos
Ano de defesa: 2004
Autor(a) principal: Teline, Maria Fernanda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25052004-012204/
Resumo: Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio de Revestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo &ltsubstantivo adjetivo&gt, &ltsubstantivo preposição adjetivo&gt, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica em torno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado.