Word association retrieval (WAR) : um método probabilístico para recuperação de termos associados em textos multissegmentados

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Costa, Jean Felipe Martins da
Orientador(a): Galante, Renata de Matos
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/249995
Resumo: Esta dissertação apresenta o WAR - Word Association Retrieval, um novo método proba bilístico para recuperação de termos associados em textos multissegmentados. O método WAR trabalha com o cenário de recuperação de palavras em um contexto único, permi tindo quantificar a correlação dos termos mesmo estando em segmentos distintos. Este cenário é quando um evento ou processo possui várias etapas de descrições textuais, po dendo assim ser representado de forma tabular, onde cada coluna representa uma etapa (segmento) e o processo total (contexto) é representado em uma linha de uma tabela, ou seja, vários segmentos de um mesmo contexto. Como exemplo de dois segmentos é a capacidade de buscar associações como nos segmentos de texto de descrição inicial com a descrição final, de uma pergunta e a resposta, da descrição de uma consulta médica e a conduta do médico descrita etc. Como em recuperação de informações o método Bag Of Words busca os documentos associados apenas contando as ocorrências. Já o método TF/IDF e suas variações aplicam pesos ponderados nas ocorrências o que por sua vez apresentam resultados melhores. Nas regras de associação temos o algoritmo clássico Apriori que também apenas contabiliza as ocorrências, mas não aplicada pesos pondera dos de associação. Assim o WAR apresenta como solução de pesos ponderados de asso ciação. Este método permite buscar as associações dos termos entre os segmentos de um texto, evitando o overfitting das técnicas modernas e a visão limitada do Apriori. Desta forma, usando lógica de pesos ponderados já aplicado na recuperação de informação nas regras de associação, o método WAR propõe duas matrizes de associação multidimen sionais para termos de todas as fontes para apresentar uma classificação em forma de ranque dos termos em resposta às palavras de pesquisa. O método WAR foi aplicado em uma base de dados artificial como análise prévia e posteriormente na coleção de dados de teleconsulta médica real, e permitiu identificar resultados de associação relevantes pes quisados em vários estágios do processo de atendimento primário à saúde. Assim, com uso da base de prontuários médicos, foi possível retornar uma classificação por meio de uma lista ordenada de termos associados em relação à busca.