Data and stream parallelism optimizations on GPUs

Araujo, Gabriell Alves de

Data and stream parallelism optimizations on GPUs

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Araujo, Gabriell Alves de
Orientador(a):	Fernandes, Luiz Gustavo Leão
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Programação Paralela Programação de GPUs Computação Heterogênea Paralelismo de Dados Paralelismo de Stream Programação Paralela Estruturada Padrões Paralelos Benchmarks Aplicações de Processamento de Stream Linguagem Específica de Domínio Esqueletos Algorítmicos Avaliação de Desempenho Computação de Alto Desempenho C C++ CUDA OpenCL
Palavras-chave em Inglês:	Parallel Programming GPU Programming Heterogeneous Computing Data Parallelism Stream Parallelism Structured Parallel Programming Parallel Patterns Benchmarks Stream Processing Applications Domain-specific Language Algorithmic Skeletons Performance Evaluation High Performance Computing C C++ CUDA OpenCL
Área do conhecimento CNPq:	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Link de acesso:	https://tede2.pucrs.br/tede2/handle/tede/10347
Resumo:	Nos dias de hoje, a maioria dos computadores são equipados com unidades de processamento gráfico (GPUs) para prover capacidade massiva de paralelismo a baixo custo. Para explorar completamente a capacidade destas arquiteturas é necessário o uso de programação paralela. No entanto, isso representa um desafio para os programadores, pois requer a refatoração de algoritmos, técnicas de paralelismo e conhecimento específico sobre o hardware. Além disso, o paralelismo das GPUs é ainda mais desafiador, pois GPUs possuem características de hardware peculiares, e outro paradigma de paralelismo chamado de programação many-core. Nesse sentido, pesquisas de computação paralela tem se concentrado no estudo de técnicas de programação eficientes para GPUs, e também no desenvolvimento de abstrações que diminuem o esforço de programação. SPar é uma linguagem específica de domínio (DSL) que segue essa direção de pesquisa. Programadores podem utilizar a SPar para expressar paralelismo de stream sem impactar significativamente o desempenho. A SPar oferece abstrações de alto nível através de anotações no código-fonte, enquanto o compilador da SPar gera código paralelo. Recentemente foi adicionada uma extensão na SPar, a qual permite que seja gerado código paralelo para CPUs e GPUs em aplicações de stream. Os núcleos da CPU controlam o fluxo de dados, e a GPU aplica paralelismo massivo na computação de cada elemento do fluxo de dados. Para este fim, a SPar gera código para uma biblioteca intermediária chamada GSParLib. GSParLib é uma API paralela orientada a padrões que provê um modelo único de programação para a runtime dos frameworks CUDA e OpenCL, permitindo a exploração do paralelismo em GPUs de diferentes fabricantes. Porém, o suporte para GPUs em ambas SPar e GSParLib ainda está em seus passos iniciais; SPar e GSParLib oferecem apenas funcionalidades básicas, e nenhum estudo avaliou o desempenho de forma abrangente. A contribuição deste trabalho concentra-se em paralelizar benchmarks representativos da área de computação de alto-desempenho (HPC), fornecer novos recursos e otimizações para GPUs na GSParLib e SPar, e apresentar um método para prover frameworks que sejam agnósticos e independentes de interfaces de programação de baixo nível. O conjunto de melhorias cobre a maioria das limitações críticas de desempenho e programabilidade da GSParLib. Nos experimentos deste trabalho, a versão otimizada da GSParLib foi capaz de atingir até 54.500,00% de melhoria no speedup em relação à versão original da GSParLib nos benchmarks de paralelismo de dados e até 718,43% de melhoria no throughput nos benchmarks de paralelismo de stream.

Data and stream parallelism optimizations on GPUs

Registros relacionados