Correlação probabilística implementada em spark para big data em saúde

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Pita, Robespierre Dantas da Rocha
Orientador(a): Barreto, Marcos Ennes
Banca de defesa: Boratto, Murilo do Carmo, Santos, Carlos Antonio de Souza Teles, Rios, Ricardo Araujo
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto de Matemática. Departamento de Ciência da Computação
Programa de Pós-Graduação: Mestrado Multiinstitucional em Ciência da Computação
Departamento: Não Informado pela instituição
País: brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufba.br/ri/handle/ri/19308
Resumo: A aplicação de técnicas de correlação probabilística em registros de saúde ou socioeconômicos de uma população tem sido uma prática comum entre epidemiologistas como base para suas pesquisa não-experimentais. Entretanto, o crescimento do volume dos dados comum ao cenário imposto pelo Big Data provocou uma carˆencia por ferramentas computacionais capazes de lidar com esses imensos reposit´orios. Neste trabalho é descrita uma solução implementada no framework de processamento em cluster Spark para a correlação probabilística de registros de grandes bases de dados do Sistema Público de Saúde brasileiro. Este trabalho está vinculado a um projeto que visa analisar a relação entre o Programam Bolsa Família e a incidência de doen¸cas associadas á pobreza, tais como hanseníase e tuberculose. Os resultados obtidos demonstram que esta implementação provê qualidade competitiva em relação a outras ferramentas e abordagens existentes, comprovada pela superioridade das métricas de tempo de execução.