Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2024 |
| Outros Autores: | , , |
| Tipo de documento: | Trabalho de conclusão de curso |
| Idioma: | por |
| Título da fonte: | Repositório Digital do Mackenzie |
| Texto Completo: | https://dspace.mackenzie.br/handle/10899/40155 |
Resumo: | Indicado para publicação. |
| id |
UPM_9f72c55b0ea2a9b92224123f2f38469c |
|---|---|
| oai_identifier_str |
oai:dspace.mackenzie.br:10899/40155 |
| network_acronym_str |
UPM |
| network_name_str |
Repositório Digital do Mackenzie |
| repository_id_str |
10277 |
| spelling |
Nascimento, Eduardo PereiraHiga, Henrique Yoshimitsu NagataGuerino, Rafael GuizelinCruz, Vinicius Figueiredo daGazzola, Murilo Gleyson2025-03-15T16:59:02Z2025-03-15T16:59:02Z2024-12-07Indicado para publicação.Este trabalho propôs o desenvolvimento de um sistema de inteligência artificial para identificação e classificação de doenças com base nos códigos CID-10, utilizando transcrições de consultas médicas e anotações médicas. O sistema integra técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina, com o uso do modelo pré-treinado com dados médicos BERT e modelos de linguagem de grande porte (LLMs) para estruturar as notas de treinamento e predição, além de traduzir as notas no processo de predição. As transcrições foram processadas pelo AWS Transcribe e submetidas a diferentes etapas de pré-processamento. Comparações entre diferentes hiperparâmetros indicaram que o modelo BiomedVLP-CXR-BERT-general apresentou melhor desempenho, com uma precisão média de 61,3%, recall de 60,7% e F1-score de 60,9% para todas as CIDs avaliadas. O sistema demonstrou alta eficiência em testes de fluxo completo, mas desafios como a classificação de casos "Indefinidos" e limitações na quantidade de dados disponíveis para treinamento foram identificados. Apesar disso, o modelo mostrou potencial significativo para impactar positivamente a segurança do paciente e a qualidade dos diagnósticos em cenários clínicos reais.This study proposed the development of an artificial intelligence system for identifying and classifying diseases based on ICD-10 codes, using medical consultation transcriptions and notes. The system integrates natural language processing (NLP) and machine learning techniques, employing a pre-trained BERT model tailored for medical data and large language models (LLMs) to structure training and prediction notes, as well as to translate notes during the prediction process. Transcriptions were processed via AWS Transcribe and subjected to various preprocessing stages. Comparisons of different hyperparameters indicated that the BiomedVLP-CXR-BERT-general model achieved superior performance, with an average precision of 61.3%, recall of 60.7%, and F1-score of 60.9% across all evaluated ICD codes. The system demonstrated high efficiency in end-to-end testing, but challenges such as the classification of "Undefined" cases and data limitations were noted. Nevertheless, the model showed significant potential to positively impact patient safety and diagnostic quality in real clinical settings.https://dspace.mackenzie.br/handle/10899/40155Universidade Presbiteriana Mackenzieinteligência artificialprocessamento de linguagem naturalCID-10aprendizado de máquinatranscrições médicasartificial intelligencenatural language processingICD-10machine learningmedical transcriptionsDesenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLNinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccessFaculdade de Computação e Informática (FCI)ORIGINAL130-2024.2-Eduardo P. Nascimento.pdf130-2024.2-Eduardo P. Nascimento.pdfapplication/pdf891457https://dspace.mackenzie.br/bitstreams/8f851bc2-464c-4e57-ba54-428e2f8b4d64/download1c51212163eeccdf2fbcdc159c6e5a88MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82269https://dspace.mackenzie.br/bitstreams/2357fa71-b8cd-4d55-aabb-f3f15d542170/downloadf0d4931322d30f6d2ee9ebafdf037c16MD52TEXT130-2024.2-Eduardo P. Nascimento.pdf.txt130-2024.2-Eduardo P. Nascimento.pdf.txtExtracted texttext/plain41414https://dspace.mackenzie.br/bitstreams/776a31c7-55f8-443a-b7ab-3e6ec0f397dd/download8352306899b8850bb24c45034fd15a4cMD53THUMBNAIL130-2024.2-Eduardo P. Nascimento.pdf.jpg130-2024.2-Eduardo P. Nascimento.pdf.jpgGenerated Thumbnailimage/jpeg5607https://dspace.mackenzie.br/bitstreams/20a7f45f-b702-4d94-8840-79a7b53396d8/download3ef6e8fd0f2edacc982a7b35121e1c2fMD5410899/401552025-03-16 03:03:38.455oai:dspace.mackenzie.br:10899/40155https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772025-03-16T03:03:38Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKPGJyPjxicj4KQ29tIG8gYWNlaXRlIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIHNldSB0cmFiYWxobyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgo8YnI+PGJyPgpBY2VpdGFuZG8gZXNzYSBsaWNlbsOnYSB2b2PDqiBjb25jb3JkYSBxdWUgYSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIG8gc2V1IHRyYWJhbGhvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkbyBzZXUgdHJhYmFsaG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgo8YnI+PGJyPgpDb25jb3JkYXLDoSBxdWUgc2V1IHRyYWJhbGhvIHRhbWLDqW0gc2Vyw6EgcmVnaWRvIHBlbGEgQ3JlYXRpdmUgQ29tbW9ucyBxdWUgTsODTyBwZXJtaXRlIG8gdXNvIGNvbWVyY2lhbCBvdSBxdWFscXVlciBhbHRlcmHDp8OjbyBkYSBvYnJhIHBvciB0ZXJjZWlyb3MgY29uZm9ybWUgZGVzY3JpdG8gZW0gPGEgaHJlZj0iaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8iIHRhcmdldD0iX2JsYW5rIj5odHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wLzwvYT4uCjxicj48YnI+ClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBvIGRlcMOzc2l0byBkbyBzZXUgdHJhYmFsaG8gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCjxicj48YnI+CkNhc28gbyBzZXUgdHJhYmFsaG8gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRvIHNldSB0cmFiYWxobyBvcmEgZGVwb3NpdGFkby4KPGJyPjxicj4KQ0FTTyBPIFRSQUJBTEhPIE9SQSBERVBPU0lUQURPIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgVU5JVkVSU0lEQURFIFBSRVNCSVRFUklBTkEgTUFDS0VOWklFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KPGJyPjxicj4KQSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZG8gc2V1IHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg== |
| dc.title.none.fl_str_mv |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| title |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| spellingShingle |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN Nascimento, Eduardo Pereira inteligência artificial processamento de linguagem natural CID-10 aprendizado de máquina transcrições médicas artificial intelligence natural language processing ICD-10 machine learning medical transcriptions |
| title_short |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| title_full |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| title_fullStr |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| title_full_unstemmed |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| title_sort |
Desenvolvimento de um sistema de inteligência artificial para identificação e classificação de códigos da CID-10 em transcrições de áudio médico usando PLN |
| author |
Nascimento, Eduardo Pereira |
| author_facet |
Nascimento, Eduardo Pereira Higa, Henrique Yoshimitsu Nagata Guerino, Rafael Guizelin Cruz, Vinicius Figueiredo da |
| author_role |
author |
| author2 |
Higa, Henrique Yoshimitsu Nagata Guerino, Rafael Guizelin Cruz, Vinicius Figueiredo da |
| author2_role |
author author author |
| dc.contributor.author.fl_str_mv |
Nascimento, Eduardo Pereira Higa, Henrique Yoshimitsu Nagata Guerino, Rafael Guizelin Cruz, Vinicius Figueiredo da |
| dc.contributor.advisor1.fl_str_mv |
Gazzola, Murilo Gleyson |
| contributor_str_mv |
Gazzola, Murilo Gleyson |
| dc.subject.por.fl_str_mv |
inteligência artificial processamento de linguagem natural CID-10 aprendizado de máquina transcrições médicas artificial intelligence natural language processing ICD-10 machine learning medical transcriptions |
| topic |
inteligência artificial processamento de linguagem natural CID-10 aprendizado de máquina transcrições médicas artificial intelligence natural language processing ICD-10 machine learning medical transcriptions |
| description |
Indicado para publicação. |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024-12-07 |
| dc.date.accessioned.fl_str_mv |
2025-03-15T16:59:02Z |
| dc.date.available.fl_str_mv |
2025-03-15T16:59:02Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://dspace.mackenzie.br/handle/10899/40155 |
| url |
https://dspace.mackenzie.br/handle/10899/40155 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
| publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
| dc.source.none.fl_str_mv |
reponame:Repositório Digital do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
| instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
| instacron_str |
MACKENZIE |
| institution |
MACKENZIE |
| reponame_str |
Repositório Digital do Mackenzie |
| collection |
Repositório Digital do Mackenzie |
| bitstream.url.fl_str_mv |
https://dspace.mackenzie.br/bitstreams/8f851bc2-464c-4e57-ba54-428e2f8b4d64/download https://dspace.mackenzie.br/bitstreams/2357fa71-b8cd-4d55-aabb-f3f15d542170/download https://dspace.mackenzie.br/bitstreams/776a31c7-55f8-443a-b7ab-3e6ec0f397dd/download https://dspace.mackenzie.br/bitstreams/20a7f45f-b702-4d94-8840-79a7b53396d8/download |
| bitstream.checksum.fl_str_mv |
1c51212163eeccdf2fbcdc159c6e5a88 f0d4931322d30f6d2ee9ebafdf037c16 8352306899b8850bb24c45034fd15a4c 3ef6e8fd0f2edacc982a7b35121e1c2f |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE) |
| repository.mail.fl_str_mv |
repositorio@mackenzie.br||paola.damato@mackenzie.br |
| _version_ |
1829412468700479488 |