Métodos espectrais para particionamento de dados e aplicações

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Sibemberg, Lucas Siviero
Orientador(a): Allem, Luiz Emílio
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/10183/241743
Resumo: Atualmente temos uma grande quantidade de dados disponíveis e é uma tarefa muito difícil interpretá-los. Desta maneira, classificar esses dados em um pequeno número de grupos baseado em suas afinidades pode ajudar a obter informações valiosas sobre eles. Este é o objetivo dos algoritmos de clusterização (particionamento), que buscam dividir dados em um determinado número de clusters (grupos) de forma que dados que possuam mais afinidade fiquem no mesmo cluster e dados com menos afinidade fiquem em clusters diferentes. Nesta dissertação trabalhamos com métodos espectrais para particionamento de dados, que usam ingredientes de álgebra linear e teoria espectral de grafos. Em nossa primeira contribuição apresentamos os resultados que obtivemos em duas aplicações das técnicas espectrais. A primeira aplicação está relacionada ao mercado financeiro, onde apresentamos uma estratégia em que clusterizamos um conjunto de ações e utilizamos critérios relacionados ao factor investing para montar portfólios. A segunda aplicação está relacionada à pandemia da COVID-19, onde obtivemos uma classificação do estado do Rio Grande do Sul em três clusters (regiões) de risco, alto risco, médio risco e baixo risco. Terminamos apresentando um novo algoritmo de clusterização espectral, mais especificamente desenvolvemos uma nova medida de similaridade. A nossa medida apresenta uma série de vantagens: (1) o usuário não precisa definir nenhum parâmetro para utilizar a medida, tornando-a fácil de aplicar; (2) a medida é invariante sob translações e expansões; (3) a medida apresentou bom desempenho em conjuntos de dados sintéticos e, em situações reais, apresentou desempenho similar a outros métodos existentes, que precisam de pelo menos um parâmetro de escala definido pelo usuário para serem utilizados.