CDJUR-BR: uma coleção dourada do judiciário brasileiro com entidades nomeadas refinadas

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Brito Junior, Antônio Maurício
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/586123
Resumo: Esta dissertação apresenta o desenvolvimento da Coleção Dourada do Judiciário Brasileiro (CDJUR-BR), um corpus formado por 21 entidades refinadas anotadas de forma manual por especialistas em documentos jurídicos. Nosso objetivo principal é preencher uma lacuna existente de processos e recursos linguísticos, disponibilizando uma metodologia própria de criação de um corpus de entidades nomeadas (EN) e uma coleção dourada abrangente e robusta, em língua portuguesa, composta por 44.526 anotações, que possa servir ao processo de treinamento e validação de modelos de Inteligência Artificial Legal (Legal AI) na esfera do judiciário brasileiro. Neste trabalho, relatamos os critérios de seleção do corpus utilizado e ferramentas de anotações, as definições de entidades nomeadas e diretrizes de anotação, os treinamentos de anotadores especialistas, o processo de anotação e as métricas de aferição da concordância entre os anotadores e os resultados dos modelos de reconhecimento de entidades nomeadas (REN) utilizados. Palavras-chave: Reconhecimento de Entidades Nomeadas · Anotação de Corpus · Coleção Dourada · Processamento de Linguagem Natural · Documentos Legais · Inteligência Artificial Legal · Aprendizado de Máquina · Português.