Balancing performance and explanation plausibility: a multi-objective approach to text classification with human rationales

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Domingues, Lucas Emanuel Resck
Orientador(a): Poco, Jorge
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/10438/35362
Resumo: Métodos de explicabilidade post-hoc de saliência são ferramentas importantes para entender modelos de PLN (Processamento de Linguagem Natural) cada vez mais complexos. Embora esses métodos possam refletir o raciocínio do modelo, eles podem não se alinhar com a intuição humana, tornando as explicações não plausíveis. Neste trabalho, apresentamos uma metodologia para incorporar rationales, que são anotações de texto explicando decisões humanas, em modelos de classificação de texto. Essa incorporação melhora a plausibilidade das explicações post-hoc, preservando sua fidelidade. Nossa abordagem é agnóstica em relação a arquiteturas de modelo e métodos de explicabilidade. Introduzimos os rationales durante o treinamento do modelo, expandindo a perda de entropia cruzada padrão com uma nova função de perda inspirada no aprendizado contrastivo. Ao utilizar um algoritmo de otimização multiobjetivo, exploramos a ponderação entre as duas funções de perda e geramos uma fronteira Pareto-ótima de modelos que equilibram desempenho e plausibilidade. Por meio de experimentos extensivos envolvendo diversos modelos, conjuntos de dados e métodos de explicabilidade, demonstramos que nossa abordagem melhora significativamente a qualidade das explicações do modelo sem causar degradação substancial (às vezes insignificante) no desempenho do modelo original.