Detalhes bibliográficos
Ano de defesa: |
2013 |
Autor(a) principal: |
Pinheiro, Oberdan Rocha |
Orientador(a): |
Souza, Josemar Rodrigues de |
Banca de defesa: |
Duarte, Ângelo Amâncio,
Barreto, Marcos Ennes,
Pereira, Hernane Borges de Barros |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Faculdade de Tecnologia SENAI CIMATEC
|
Programa de Pós-Graduação: |
Modelagem Computacional e Tecnologia Industrial
|
Departamento: |
Não Informado pela instituição
|
País: |
brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
http://repositoriosenaiba.fieb.org.br/handle/fieb/749
|
Resumo: |
O desempenho computacional disponibilizado pelos sistemas paralelos resulta da capacidade de dividir o trabalho em partes menores e encaminhar cada uma delas para ser processada paralelamente em diferentes nós de um sistema distribuído. A falha em uma das partes paralelizadas pode levar a computação a um estado de operação inadequado, comprometendo o resultado final da computação paralela distribuída. Um sistema distribuído está sujeito a falhas nos seus componentes de comunicação, seus processadores, em suas aplicações entre outros componentes que formam o sistema. Desta maneira, as aplicações paralelas, ao utilizarem os recursos disponibilizados pelos sistemas distribuídos, têm suas partes executadas em paralelo, em diferentes nós desse sistema. Em razão de cada um desses recursos ser um possível ponto de falha, as aplicações paralelas acabam se tornando mais susceptíveis à ocorrência de falhas. Quando as aplicações paralelas são interrompidas durante a ocorrência de falhas, todo o processamento realizado e o tempo gasto para tal são desperdiçados, pois as aplicações devem ser reinicializadas. Dessa forma, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental, para garantir o término das aplicações paralelas. Este trabalho apresenta um ambiente computacional tolerante a falhas para aplicações paralelas que utilizam o padrão Open MPI, para minimizar o desperdício de tempo e processamento já realizados pelos processos da aplicação paralela, até o momento do surgimento da falha. O ambiente utiliza mecanismo de checkpoint/restart do padrão Open MPI para armazenar e recuperar os estados dos processos paralelos e a técnica de heartbeat para verificar a continuidade de execução destes mesmos processos. |