MorphoMap: mapeamento automático de narrativas clínicas para uma terminologia médica
Ano de defesa: | 2009 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Curitiba |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/124 |
Resumo: | A documentação clínica requer a representação de situações complexas como pareceres clínicos, imagens e resultados de exames, planos de tratamento, dentre outras. Entre os profissionais da área de saúde, a linguagem natural é o meio principal de documentação. Neste tipo de linguagem, caracterizada por uma elevada flexibilidade sintática e léxica, é comum a prevalência de ambigüidades em sentenças e termos. O objetivo do presente trabalho consiste em mapear informações codificadas em narrativas clínicas para uma ontologia de domínio (SNOMED CT). Para sua consecução, aplicaram-se ferramentas processamento de linguagem natural (PLN), assim como adotaram-se heurísticas para o mapeamento de textos para ontologias. Para o desenvolvimento da pesquisa, uma amostra de sumários de alta foi obtida junto ao Hospital das Clínicas de Porto Alegre, RS, Brasil. Parte dos sumários foi manualmente anotada, com a aplicação da estratégia de Active Learning, visando a preparação de um corpus para o treinamento de ferramentas de PLN. Paralelamente, foram desenvolvidos algoritmos para o pré-processamento dos textos ‘sujos’ (com grande quantidade de erros, acrônimos, abreviações, etc). Com a identificação das frases nominais, resultado do processamento das ferramentas de PLN, diversas heurísticas (identificação de acrônimos, correção ortográfica, supressão de valores numéricos e distância conceitual) para o mapeamento para a SNOMED CT foram aplicadas. A versão atual da SNOMED CT não está disponível em português, demandando o uso de ferramentas para processamento multi-lingual. Para tanto, o pesquisa atual é parte da iniciativa do projeto MorphoSaurus, por meio do qual desenvolve-se e disponibiliza-se um thesaurus multi-língue (português, alemão, inglês, espanhol, sueco, francês), bem como componentes de software que permitem o processamento inter-lingual. Para realização da pesquisa, 80% da base de sumários foi analisada e manualmente anotada, resultando em um corpus de domínio (textos médicos e em português) que permitiu a especialização do software OpenNLP (baseado no modelo estatístico para o PLN e selecionado após a avaliação de outras soluções disponíveis). A precisão do etiquetador atingiu 93.67%. O thesaurus multi-língue do MorphoSaurus foi estendido, reestruturado e avaliado (automaticamente com a comparação por meio de textos comparáveis – ‘traduções de um mesmo texto para diferentes idiomas’) e sofreu intervenções objetivando a correção de imperfeições existentes, resultando na melhoria da cobertura lingüística, no caso do português, em 2%; e 50% para o caso do espanhol, medidas obtidas por meio do levantamento das curvas de precisão e revocação para a base do OHSUMED. Por fim, a codificação de informações de narrativas clínicas para uma ontologia de domínio é uma área de elevado interesse científico e clínico, visto que grande parte dos dados produzidos quando do atendimento médico é armazenado em texto livre e não em campos estruturados. Para o alcance deste fim, adotou-se a SNOMED CT. A viabilidade da metodologia de mapeamento foi demonstrada com a avaliação dos resultados do mapeamento automático contra um padrão ouro, manualmente desenvolvido, indicando precisão de 83,9%. |