Detecção de deriva em redes neurais convolucionais aplicada ao reconhecimento de intenções em frases curtas
Ano de defesa: | 2023 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por eng |
Instituição de defesa: |
Universidade Presbiteriana Mackenzie
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://dspace.mackenzie.br/handle/10899/33747 |
Resumo: | Avanços notáveis ocorreram nos modelos de linguagem natural, impulsionados pelo surgimento de transformadores pré-treinados e aprendizado profundo. Embora os resultados sejam promissores, persistem desafios quando esses modelos são aplicados em ambientes produtivos. Modelos de classificação estão em constante evolução, sendo alimentados por novos dados e realizando previsões de forma contínua. Entretanto, os dados podem gradualmente alterar sua distribuição de probabilidades, divergindo do conjunto de treinamento original usado para treinar o modelo. Esse fenômeno, denominado deriva do modelo, implica na degradação do desempenho do modelo. A deriva do modelo pode ser ocasionada por diversas razões a ser uma delas o desvio de conceito, que ocorre quando há mudanças apenas na classe prevista, sem afetar outros atributos. Outra causa está relacionada à mudança na distribuição dos dados, independentemente de afetar diretamente a classe. Este estudo tem como foco analisar a deriva de modelos de linguagem natural, empregando métodos que detectem de forma eficaz a deriva do modelo ao longo do tempo. Para esse fim, foram explorados detectores de deriva, incluindo analises de distância, como a distância de Wasserstein, testes de hipótese multivariados como Maximum Mean Discrepancy e Least-Squares Density Dierence, teste de divergência e de classificação como os método Jensen-Shannon e Classifier. Essas abordagens foram integradas a um fluxo de gerenciamento durante o treinamento do modelo de aprendizado de máquina. Tais estratégias contribuem para a supervisão contínua e a sustentabilidade dos modelos de linguagem natural, emitindo alertas à medida que o desempenho do modelo se degrada com o tempo. Os resultados deste estudo evidenciaram um notável sucesso na previsão de intenções. Essa avaliação foi realizada por meio da métrica de acurácia. O bom desempenho foi alcançado ao empregar o modelo BERT para incorporação e transformação das sentenças no conjunto de dados analisado, originário de postagens da rede social X. O processo de classificação dentre alguns métodos de incorporação de palavras se mostrou necessário para a analise dos métodos de detecção de deriva. Além de destacar a eficácia do modelo BERT, este estudo explora o método Maximum Mean Discrepancy, que se sobressai como uma abordagem na detecção de deriva no modelo na proposta do estudo. Especificamente, ao comparar-se com outros métodos em termos de detecção de desequilíbrio nos lotes de dados, este método revelou sua capacidade para identificar padrões de deriva. Sua habilidade em lidar com fenômenos como data drift foi notável, demonstrando um desempenho superior e consistente aos demais métodos explorados. |