Armazenamento elástico na recepção de dados em fluxo contínuo variável.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bulsoni, Felipe Garcia
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/
Resumo: O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.