Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN

Detalhes bibliográficos
Autor(a) principal: Nascimento, Eduardo Pereira
Data de Publicação: 2024
Outros Autores: Higa, Henrique Yoshimitsu Nagata, Guerino, Rafael Guizelin, Cruz, Vinicius Figueiredo da
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Digital do Mackenzie
Texto Completo: https://dspace.mackenzie.br/handle/10899/40155
Resumo: Indicado para publicação.
id UPM_9f72c55b0ea2a9b92224123f2f38469c
oai_identifier_str oai:dspace.mackenzie.br:10899/40155
network_acronym_str UPM
network_name_str Repositório Digital do Mackenzie
repository_id_str 10277
spelling Nascimento, Eduardo PereiraHiga, Henrique Yoshimitsu NagataGuerino, Rafael GuizelinCruz, Vinicius Figueiredo daGazzola, Murilo Gleyson2025-03-15T16:59:02Z2025-03-15T16:59:02Z2024-12-07Indicado para publicação.Este trabalho propôs o desenvolvimento de um sistema de inteligência artificial para identificação e classificação de doenças com base nos códigos CID-10, utilizando transcrições de consultas médicas e anotações médicas. O sistema integra técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina, com o uso do modelo pré-treinado com dados médicos BERT e modelos de linguagem de grande porte (LLMs) para estruturar as notas de treinamento e predição, além de traduzir as notas no processo de predição. As transcrições foram processadas pelo AWS Transcribe e submetidas a diferentes etapas de pré-processamento. Comparações entre diferentes hiperparâmetros indicaram que o modelo BiomedVLP-CXR-BERT-general apresentou melhor desempenho, com uma precisão média de 61,3%, recall de 60,7% e F1-score de 60,9% para todas as CIDs avaliadas. O sistema demonstrou alta eficiência em testes de fluxo completo, mas desafios como a classificação de casos "Indefinidos" e limitações na quantidade de dados disponíveis para treinamento foram identificados. Apesar disso, o modelo mostrou potencial significativo para impactar positivamente a segurança do paciente e a qualidade dos diagnósticos em cenários clínicos reais.This study proposed the development of an artificial intelligence system for identifying and classifying diseases based on ICD-10 codes, using medical consultation transcriptions and notes. The system integrates natural language processing (NLP) and machine learning techniques, employing a pre-trained BERT model tailored for medical data and large language models (LLMs) to structure training and prediction notes, as well as to translate notes during the prediction process. Transcriptions were processed via AWS Transcribe and subjected to various preprocessing stages. Comparisons of different hyperparameters indicated that the BiomedVLP-CXR-BERT-general model achieved superior performance, with an average precision of 61.3%, recall of 60.7%, and F1-score of 60.9% across all evaluated ICD codes. The system demonstrated high efficiency in end-to-end testing, but challenges such as the classification of "Undefined" cases and data limitations were noted. Nevertheless, the model showed significant potential to positively impact patient safety and diagnostic quality in real clinical settings.https://dspace.mackenzie.br/handle/10899/40155Universidade Presbiteriana Mackenzieinteligência artificialprocessamento de linguagem naturalCID-10aprendizado de máquinatranscrições médicasartificial intelligencenatural language processingICD-10machine learningmedical transcriptionsDesenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLNinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccessFaculdade de Computação e Informática (FCI)ORIGINAL130-2024.2-Eduardo P. Nascimento.pdf130-2024.2-Eduardo P. Nascimento.pdfapplication/pdf891457https://dspace.mackenzie.br/bitstreams/8f851bc2-464c-4e57-ba54-428e2f8b4d64/download1c51212163eeccdf2fbcdc159c6e5a88MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82269https://dspace.mackenzie.br/bitstreams/2357fa71-b8cd-4d55-aabb-f3f15d542170/downloadf0d4931322d30f6d2ee9ebafdf037c16MD52TEXT130-2024.2-Eduardo P. Nascimento.pdf.txt130-2024.2-Eduardo P. Nascimento.pdf.txtExtracted texttext/plain41414https://dspace.mackenzie.br/bitstreams/776a31c7-55f8-443a-b7ab-3e6ec0f397dd/download8352306899b8850bb24c45034fd15a4cMD53THUMBNAIL130-2024.2-Eduardo P. Nascimento.pdf.jpg130-2024.2-Eduardo P. Nascimento.pdf.jpgGenerated Thumbnailimage/jpeg5607https://dspace.mackenzie.br/bitstreams/20a7f45f-b702-4d94-8840-79a7b53396d8/download3ef6e8fd0f2edacc982a7b35121e1c2fMD5410899/401552025-03-16 03:03:38.455oai:dspace.mackenzie.br:10899/40155https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772025-03-16T03:03:38Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKPGJyPjxicj4KQ29tIG8gYWNlaXRlIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIHNldSB0cmFiYWxobyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgo8YnI+PGJyPgpBY2VpdGFuZG8gZXNzYSBsaWNlbsOnYSB2b2PDqiBjb25jb3JkYSBxdWUgYSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIG8gc2V1IHRyYWJhbGhvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkbyBzZXUgdHJhYmFsaG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgo8YnI+PGJyPgpDb25jb3JkYXLDoSBxdWUgc2V1IHRyYWJhbGhvIHRhbWLDqW0gc2Vyw6EgcmVnaWRvIHBlbGEgQ3JlYXRpdmUgQ29tbW9ucyBxdWUgTsODTyBwZXJtaXRlIG8gdXNvIGNvbWVyY2lhbCBvdSBxdWFscXVlciBhbHRlcmHDp8OjbyBkYSBvYnJhIHBvciB0ZXJjZWlyb3MgY29uZm9ybWUgZGVzY3JpdG8gZW0gPGEgaHJlZj0iaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8iIHRhcmdldD0iX2JsYW5rIj5odHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wLzwvYT4uCjxicj48YnI+ClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBvIGRlcMOzc2l0byBkbyBzZXUgdHJhYmFsaG8gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCjxicj48YnI+CkNhc28gbyBzZXUgdHJhYmFsaG8gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRvIHNldSB0cmFiYWxobyBvcmEgZGVwb3NpdGFkby4KPGJyPjxicj4KQ0FTTyBPIFRSQUJBTEhPIE9SQSBERVBPU0lUQURPIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgVU5JVkVSU0lEQURFIFBSRVNCSVRFUklBTkEgTUFDS0VOWklFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KPGJyPjxicj4KQSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZG8gc2V1IHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==
dc.title.none.fl_str_mv Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
title Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
spellingShingle Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
Nascimento, Eduardo Pereira
inteligência artificial
processamento de linguagem natural
CID-10
aprendizado de máquina
transcrições médicas
artificial intelligence
natural language processing
ICD-10
machine learning
medical transcriptions
title_short Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
title_full Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
title_fullStr Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
title_full_unstemmed Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
title_sort Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
author Nascimento, Eduardo Pereira
author_facet Nascimento, Eduardo Pereira
Higa, Henrique Yoshimitsu Nagata
Guerino, Rafael Guizelin
Cruz, Vinicius Figueiredo da
author_role author
author2 Higa, Henrique Yoshimitsu Nagata
Guerino, Rafael Guizelin
Cruz, Vinicius Figueiredo da
author2_role author
author
author
dc.contributor.author.fl_str_mv Nascimento, Eduardo Pereira
Higa, Henrique Yoshimitsu Nagata
Guerino, Rafael Guizelin
Cruz, Vinicius Figueiredo da
dc.contributor.advisor1.fl_str_mv Gazzola, Murilo Gleyson
contributor_str_mv Gazzola, Murilo Gleyson
dc.subject.por.fl_str_mv inteligência artificial
processamento de linguagem natural
CID-10
aprendizado de máquina
transcrições médicas
artificial intelligence
natural language processing
ICD-10
machine learning
medical transcriptions
topic inteligência artificial
processamento de linguagem natural
CID-10
aprendizado de máquina
transcrições médicas
artificial intelligence
natural language processing
ICD-10
machine learning
medical transcriptions
description Indicado para publicação.
publishDate 2024
dc.date.issued.fl_str_mv 2024-12-07
dc.date.accessioned.fl_str_mv 2025-03-15T16:59:02Z
dc.date.available.fl_str_mv 2025-03-15T16:59:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.mackenzie.br/handle/10899/40155
url https://dspace.mackenzie.br/handle/10899/40155
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Repositório Digital do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Repositório Digital do Mackenzie
collection Repositório Digital do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/8f851bc2-464c-4e57-ba54-428e2f8b4d64/download
https://dspace.mackenzie.br/bitstreams/2357fa71-b8cd-4d55-aabb-f3f15d542170/download
https://dspace.mackenzie.br/bitstreams/776a31c7-55f8-443a-b7ab-3e6ec0f397dd/download
https://dspace.mackenzie.br/bitstreams/20a7f45f-b702-4d94-8840-79a7b53396d8/download
bitstream.checksum.fl_str_mv 1c51212163eeccdf2fbcdc159c6e5a88
f0d4931322d30f6d2ee9ebafdf037c16
8352306899b8850bb24c45034fd15a4c
3ef6e8fd0f2edacc982a7b35121e1c2f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1829412468700479488