[en] COREFERENCE RESOLUTION USING LATENT TREES WITH CONTEXTUAL EMBEDDING

LEONARDO BARBOSA DE OLIVEIRA

[en] COREFERENCE RESOLUTION USING LATENT TREES WITH CONTEXTUAL EMBEDDING

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	LEONARDO BARBOSA DE OLIVEIRA
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] CLUSTERIZACAO [pt] SPANBERT [pt] BERT [pt] RESOLUCAO DE CORREFERENCIA [pt] REPRESENTACAO CONTEXTUAL [pt] ARVORES LATENTES [en] CLUSTERING [en] SPANBERT [en] BERT [en] COREFERENCE RESOLUTION [en] CONTEXTUAL EMBEDDING [en] LATENT TREES
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=51292&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=51292&idi=2 http://doi.org/10.17771/PUCRio.acad.51292
Resumo:	[pt] A tarefa de resolução de correferência consiste em identificar e agrupar trechos de um texto de acordo com as entidades do mundo real a que se referem. Apesar de já ter sido abordada em outras conferências, a CoNLL de 2012 é um marco pela qualidade das bases de dados, das métricas e das soluções apresentadas. Naquela edição, o modelo vencedor utilizou um perceptron estruturado para otimizar uma árvore latente de antecedentes, atingindo a pontuação de 63.4 na métrica oficial para o dataset de teste em inglês. Nos anos seguintes, as bases e métricas apresentadas na conferência se tornaram o benchmark para a tarefa de correferência. Com novas técnicas de aprendizado de máquina desenvolvidas, soluções mais elaboradas foram apresentadas. A utilização de redes neurais rasas atingiu a pontuação de 68.8; a adição de representação contextual elevou o estado da arte para 73.0; redes neurais profundas melhoraram o baseline para 76.9 e o estado da arte atual, que é uma combinação de várias dessas técnicas, está em 79.6. Neste trabalho é apresentado uma análise de como as técnicas de representação de palavras Bag of Words, GloVe, BERT e SpanBERT utilizadas com árvores latentes de antecedentes se comparam com o modelo original de 2012. O melhor modelo encontrado foi o que utiliza SpanBERT com uma margem muito larga, o qual atingiu pontuação de 61.3 na métrica da CoNLL 2012, utilizando o dataset de teste. Com estes resultados, mostramos que é possível utilizar técnicas avançadas em estruturas mais simples e ainda obter resultados competitivos na tarefa de correferência. Além disso, melhoramos a performance de um framework de código aberto para correferência, a fim de contemplar soluções com maior demanda de memória e processamento.

[en] COREFERENCE RESOLUTION USING LATENT TREES WITH CONTEXTUAL EMBEDDING

Registros relacionados