Detalhes bibliográficos
Ano de defesa: |
2005 |
Autor(a) principal: |
Martha, Amilton Souza [UNIFESP] |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de São Paulo (UNIFESP)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://repositorio.unifesp.br/handle/11600/21233
|
Resumo: |
A Recuperação de Informações é a ciência que estuda a criação de algoritmos para recuperar informações, principalmente provenientes de textos livres, que constituem a maior parte da informação em forma digital disponível nos dias atuais, sobretudo após a Internet. É evidente a necessidade de técnicas para recuperar informações dessa grande massa. Mecanismos de busca como Google®, Altavista®, Yahoo® e outros são indispensáveis para encontrar informações espalhadas na Internet em páginas da Web (arquivos PDF, TXT, HTML e outros) nos dias atuais. Na área da saúde, muitas informações também se encontram na forma de textos livres como os artigos científicos em bases de dados específicas da saúde como o Medline que possuem ferramentas de busca como Pubmed. Prontuários Eletrônicos do Paciente (PEP) também possuem informações em textos livres como o histórico ou evolução do paciente. Os profissionais da saúde que inserem informações podem utilizar termos sinônimos, jargões médicos, abreviaturas ou mesmo terem erros de ortografia. Para esses casos, a recuperação de informações com essas variações pode ser algo não trivial. Foram utilizadas duas bases de dados de PEP´s de clínicas distintas, sendo a primeira com 6732 histórias clínicas e a segunda com 26072 histórias. Foi desenvolvido um software chamado SIRIMED (Sistema de Indexação e Recuperação de Informações Médicas) que permitiu mostrar que a recuperação de informações baseada em semelhança semântica com um thesaurus médico (DeCS – Descritores em Ciências da Saúde) e semelhança ortográfica, baseada em um algoritmo de stemming, juntamente com edit distance, pode melhorar a quantidade de termos recuperados numa busca, em média de 30% comparada com a busca tradicional direta, que faz somente a busca do termo exato. A média de falsos positivos encontrados é menor que 0,5% nas duas bases de dados, o que não compromete o resultado do aumento de recuperação conseguido. |