[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO

MIGUEL MENDES DE BRITO

[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	MIGUEL MENDES DE BRITO
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	MAXWELL
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	[pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING
Link de acesso:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016&idi=2 http://doi.org/10.17771/PUCRio.acad.38016
Resumo:	[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87.

[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO

Registros relacionados