Embedded representations for item descriptions in unsupervised tasks
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil ICEX - INSTITUTO DE CIÊNCIAS EXATAS Programa de Pós-Graduação em Ciência da Computação UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/42299 |
Resumo: | maioria dos algoritmos de aprendizado de máquina exige como entrada um vetor de tamanho fixo. Isso torna a área de representação de texto uma área desafiadora de pesquisa em Processamento de Linguagem Natural (NLP), e seus resultados são altamente dependentes da aplicação em questão. Para tarefas de NLP, esse vetor de tamanho fixo geralmente representa uma frase ou um parágrafo. No entanto, construir representações de sentença capazes de capturar as informações semânticas e específicas de um contexto não é uma tarefa fácil. Neste trabalho propomos uma metodologia para resolver um problema real: a identificação de objetos únicos de licitação em bases de dados do Ministério Público Federal de Minas Gerais. Esse cenário traz desafios que vão além dos comumente conhecidos na área de representação de texto, uma vez que queremos agrupar descrições de produtos ou serviços. Essas descrições no geral não seguem a estrutura gramatical de uma sentença na língua portuguesa, já que são formadas em sua maioria por substantivos, adjetivos, e quantidades, essas últimas descrevendo a quantidade de itens comprada/contratada ou a unidade de medida que descreve o item. Dentro do arcabouço proposto, damos ênfase ao problema de representação de texto para algoritmos não-supervisionados. Propomos uma estratégia simples de extração de informações para melhorar a qualidade dos vetores de sentenças, com foco em termos específicos como números e substantivos, e apresentamos uma modificação do Sentence-BERT, que pode ser usada de forma não-supervisionada para geração de embeddings que carregam informações semânticas e sintáticas das descrições. Também identificamos termos numéricos e unidades de medida como os dois componentes principais neste contexto, e mostramos que um método simples de padronização de números tem um efeito significativo nos resultados. Resultados experimentais mostram ganhos do arcabouço proposto em relação a métodos estado-da-arte. |