Detalhes bibliográficos
Ano de defesa: |
2012 |
Autor(a) principal: |
Paula, Daniane Silva de |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://teses.usp.br/teses/disponiveis/95/95131/tde-20230725-114618/
|
Resumo: |
A evolução da tecnologia permitiu o desenvolvimento de novas técnicas e métodos para analisar DNA, RNA e proteínas. Assim, houve um crescimento da quantidade de dados biomoleculares disponíveis, por exemplo, em um único experimento de microarray milhares de genes podem ser monitorados de uma só vez. Os genes são responsáveis pela produção de proteínas e são elas que movem a maquinaria celular. Portanto, estudar o comportamento dos genes é imprescindível para entender os processos celulares. Microarrays de DNA são uma técnica poderosa para obter da- dos de expressão, pois permitem que todos os genes sejam monitorados em um momento celular como, por exemplo, divisão, exposição a hormônios ou fármacos, etc. Para gerar informação útil a partir de dados biomoleculares, precisa-se de técnicas eficientes de análises de dados. Clusterização é muito difundida na análise de dados obtidos em experimentos de microarrays, pois permite agrupar genes com padrões de expressão similares. Porém, os cluster de genes obtidos precisam ser analisados dentro de um contexto, implicando em consultas a literatura. O volume de publicações científicas na literatura biomédica tem crescido também em consequência do crescimento do volume de dados. Assim, uma referência cruzada pode ser estabelecida entre os clusters gênicos (dados biomoleculares) e o conhecimento previamente publicado em artigos. No entanto, não é simples encontrar e relacionar informações de interesse na literatura, sem gastar quantidades inviáveis de tempo. Tecnologias de software podem colaborar nesse contexto, a partir da disponibilidade de muitas publicações surgiu o interesse em automatizar o processo de sumarização de textos. Nesta monografia, propõe-se o método SARI (Sumarização Automática de Artigos Científicos para Representar o significado de Interações Gênicas), cujo objetivo é auxiliar a análise e a interpretação de clusters de expressão gênica, por meio de consultas rápidas à literatura com a sumarização automática de artigos científicos relacionados. Para realizar a sumarização, utilizou-se a nomenclatura gênica para identificar as sentenças mais relevantes nos artigos científicos. A sumarização implementada foi extrativa, em abordagens mono-documentos e multi-documentos. Os resultados a capacidade de aplicações que utilizaram o SARI em relacionar conhecimento da literatura com dados biomoleculares. Os resultados indicaram também que a qualidade e o poder de informação dos sumários são mais relevantes do que o tamanho do sumário. |