Análise de correferência em textos via comitês de programas genéticos

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Carvalho, Davi Lopes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
Resumo: Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.