Viés em geração de linguagem natural na era dos modelos de grande escala sob a perspectiva das humanidades digitais

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Seco, Daniel Bonatto lattes
Orientador(a): Alvim, Leandro Guimaraes Marques lattes
Banca de defesa: Alvim, Leandro Guimarães Marques lattes, Pagano, Adriana Silvina lattes, Mello, Carlos Eduardo Ribeiro de lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal Rural do Rio de Janeiro
Programa de Pós-Graduação: Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais
Departamento: Instituto Multidisciplinar de Nova Iguaçu
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://rima.ufrrj.br/jspui/handle/20.500.14407/18211
Resumo: A presente dissertação investiga o problema do viés em grandes modelos de lin- guagem (LLMs) baseados na arquitetura Transformers e seus impactos na disseminação e reprodução de preconceitos e injustiças. Contextualizado na era da Inteligência Artificial e do Big Data e avaliado sob a luz das humanidades digitais, o trabalho parte de uma revisão histórica dos métodos em processamento de linguagem natural (PLN) e das parti- cularidades dos métodos atuais, explorando a questão da confiabilidade e sua aplicação no meio digital, especialmente nos modelos de linguagem, identificando potenciais problemas associados. É conduzida uma análise em dez modelos multilinguais com alguns treinados exclusivamente em português sobre um possível viés em sua capacidade de gerar continu- ações tóxicas de prompts a partir do gênero identificado. Questões transversais, como a proveniência e gerência de dados, representatividade linguística e cultural, e a importância da iniciativa de código aberto na construção de modelos éticos e transparentes são dis- cutidas, enfatizando a necessidade de abordagens mais inclusivas, justas e transparentes. Por fim, a urgência pela regulação da Inteligência Artificial é destacada, considerando os aspectos éticos, de segurança e de controle dos dados e dos modelos gerados, com uma análise dos principais projetos de lei em tramitação e suas implicações. Assim, a disser- tação contribui para o entendimento dos desafios éticos e técnicos associados aos modelos de linguagem, promovendo uma reflexão sobre a importância de abordagens confiáveis, justas e regulamentadas na construção e aplicação desses sistemas na sociedade.