Detalhes bibliográficos
Ano de defesa: |
2024 |
Autor(a) principal: |
Domingues, Lucas Emanuel Resck |
Orientador(a): |
Poco, Jorge |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://hdl.handle.net/10438/35362
|
Resumo: |
Métodos de explicabilidade post-hoc de saliência são ferramentas importantes para entender modelos de PLN (Processamento de Linguagem Natural) cada vez mais complexos. Embora esses métodos possam refletir o raciocínio do modelo, eles podem não se alinhar com a intuição humana, tornando as explicações não plausíveis. Neste trabalho, apresentamos uma metodologia para incorporar rationales, que são anotações de texto explicando decisões humanas, em modelos de classificação de texto. Essa incorporação melhora a plausibilidade das explicações post-hoc, preservando sua fidelidade. Nossa abordagem é agnóstica em relação a arquiteturas de modelo e métodos de explicabilidade. Introduzimos os rationales durante o treinamento do modelo, expandindo a perda de entropia cruzada padrão com uma nova função de perda inspirada no aprendizado contrastivo. Ao utilizar um algoritmo de otimização multiobjetivo, exploramos a ponderação entre as duas funções de perda e geramos uma fronteira Pareto-ótima de modelos que equilibram desempenho e plausibilidade. Por meio de experimentos extensivos envolvendo diversos modelos, conjuntos de dados e métodos de explicabilidade, demonstramos que nossa abordagem melhora significativamente a qualidade das explicações do modelo sem causar degradação substancial (às vezes insignificante) no desempenho do modelo original. |