Reconhecimento de entidades nomeadas em prontuários de Psiquiatria: anotação de corpus e extração de entidades clínicas

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Niero, Luiz Henrique Pereira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
PLN
Link de acesso: http://hdl.handle.net/11449/250392
Resumo: Grande parte das informações dos dados de pacientes presentes nos sistemas de prontuários eletrônicos encontram-se em formato de texto. Esses dados dizem respeito às informações diversas do paciente e são de extrema importância para acompanhar o tratamento dele. Porém, dados que estão no formato puramente textual não estão passíveis à aplicação de algoritmos computacionais para a extração de informações. Para resolver tal problema, existe uma área chamada Processamento de Linguagem Natural e uma subárea chamada de Reconhecimento de Entidade Nomeadas (REN), que tem por objetivo reconhecer unidades que representam algum sentido no texto – chamadas de Entidades. Os métodos mais atuais de REN utilizam-se de métodos de aprendizado de máquina em corpus de documentos anotados para atingir bons resultados, porém, de acordo com o levantamento realizado no presente trabalho, não foram encontrados corpus anotados para a língua portuguesa que pudessem ser treinados para o domínio da psiquiatria, que é o domínio explorado no presente trabalho. Portanto, neste trabalho foi realizada a anotação de um corpus de prontuários médicos de psiquiatria, o PSYclinBR. O corpus é composto por 300 prontuários de notas de admissão de um serviço de emergência psiquiatra e anotado em 9 categorias semânticas: comportamento autodestrutivo, diagnóstico, droga, fármaco, função psíquica, histórico familiar, histórico do paciente, observação e sintoma e queixa psíquica. Ao todo, são 2.480 sentenças e 5.822 entidades, com IAA de 0.6. O treinamento do modelo de REN baseado na arquitetura BERT, o psyBERTpt, foi feito com a utilização do corpus anotado e atingiu os valores médios de precisão 0,65, revocação 0,69 e f1-score 0,67, valores que estão próximos ao estado da arte para REN em dados clínicos da língua portuguesa. Tanto o Corpus como o modelo de REN foram disponibilizados publicamente.