Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Pompolo, Adalberto Nassu
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Universitário FEI, São Bernardo do Campo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.fei.edu.br/handle/FEI/5291
https://doi.org/10.31414/EE.2024.D.131707
Resumo: Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário