Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Brito Junior, Antônio Maurício |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/586123
|
Resumo: |
Esta dissertação apresenta o desenvolvimento da Coleção Dourada do Judiciário Brasileiro (CDJUR-BR), um corpus formado por 21 entidades refinadas anotadas de forma manual por especialistas em documentos jurídicos. Nosso objetivo principal é preencher uma lacuna existente de processos e recursos linguísticos, disponibilizando uma metodologia própria de criação de um corpus de entidades nomeadas (EN) e uma coleção dourada abrangente e robusta, em língua portuguesa, composta por 44.526 anotações, que possa servir ao processo de treinamento e validação de modelos de Inteligência Artificial Legal (Legal AI) na esfera do judiciário brasileiro. Neste trabalho, relatamos os critérios de seleção do corpus utilizado e ferramentas de anotações, as definições de entidades nomeadas e diretrizes de anotação, os treinamentos de anotadores especialistas, o processo de anotação e as métricas de aferição da concordância entre os anotadores e os resultados dos modelos de reconhecimento de entidades nomeadas (REN) utilizados. Palavras-chave: Reconhecimento de Entidades Nomeadas · Anotação de Corpus · Coleção Dourada · Processamento de Linguagem Natural · Documentos Legais · Inteligência Artificial Legal · Aprendizado de Máquina · Português. |