Qualidade em conjuntos de dados rotulados: uso do BERT para revisão de anotações e aplicação de saliência para a identificação de vieses

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Rodrigues, Rafael Bezerra de Menezes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
XAI
Link de acesso: http://hdl.handle.net/11449/238324
Resumo: A arquitetura Transformer revolucionou a área de processamento de linguagem natural, permitindo a criação do BERT, uma rede neural profunda que, quando lançada, superou o estado da arte em diversas tarefas, como a classificação de textos. No entanto, esta alta performance é acompanhada pela falta de interpretabilidade: o processo de tomada de decisão do BERT é tido como uma caixa-preta, ou seja, é difícil explicar o porquê de uma determinada classificação, com base nas características da entrada e no mecanismo interno do modelo. Dessa forma, torna-se importante o desenvolvimento de técnicas que auxiliem na compreensão do seu funcionamento. A área de XAI (eXplainable Artificial Intelligence) engloba o desenvolvimento dessas técnicas de compreensão, buscando aumentar a confiança dos usuários que utilizam a inteligência artificial, além de entender o que os modelos aprendem e como esse conhecimento é armazenado e utilizado. O presente trabalho descreve técnicas existentes para a compreensão das decisões tomadas pelo BERT, e descreve a aplicação de uma delas para estudo do overfitting e identificação dos vieses aprendidos pelo modelo. Uma mudança na estratégia de treinamento, visando à mitigação dos vieses identificados, levou a uma redução da taxa de falsos positivos em todos os casos observados, mostrando a eficácia da visualização empregada. Outro aspecto importante da classificação de textos, em modelos treinados por aprendizado supervisionado, é a qualidade dos rótulos atribuídos às instâncias do conjunto de treinamento. O presente trabalho também apresenta uma ferramenta para visualização de datasets apresentados de forma compacta e interativa, chamada de Mapa de Instâncias, que auxilia na tarefa de revisão das anotações de conjuntos de dados. Além de permitir a rápida identificação de textos mal rotulados e dos problemas mais críticos de classificação, um experimento mostrou que a combinação da ferramenta com um método de ordenação das instâncias, guiado por um BERT treinado, foi capaz de identificar o dobro de casos mal rotulados quando comparada a uma seleção aleatória dos casos, indicando a sua utilidade para a melhoria de qualidade da anotação dos datasets.