Métodos de kernel escaláveis e interpretáveis baseados em random Fourier features

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Otto, Mateus Piovezan
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-02052023-084042/
Resumo: Métodos de kernel são uma classe de modelos de aprendizado de máquina baseados em kernels positivo semidefinidos, que servem como medidas de similaridade entre covariáveis. Exemplos de métodos de kernel incluem a regressão ridge com kernels, as máquinas de vetor de suporte e os splines suavizadores. Apesar do seu amplo uso, os métodos de kernel possuem duas desvantagens significativas. Em primeiro lugar, ao operar sobre todos os pares de observações, eles demandam grande quantidade de memória e computação, o que impossibilita sua aplicação em grandes conjuntos de dados. Este problema pode ser resolvido através de aproximações da matriz do kernel via random Fourier features ou precondicionadores. Em segundo lugar, a maioria dos kernels tratam todas as covariáveis disponíveis como igualmente relevantes, desconsiderando seu impacto na predição. Isso resulta em um descréscimo na interpretabilidade, uma vez que a influência de covariáveis irrelevantes não é mitigada. Neste trabalho, nós estendemos a teoria de random Fourier features para os kernels com Determinação Automática de Relevância e propomos um novo método de kernel que integra a otimização dos parâmetros do kernel ao treinamento. Os parâmetros do kernel reduzem o efeito das covariáveis irrelevantes e podem ser utilizados para seleção de variáveis pós-processamento. O método proposto é avaliado em diversos conjuntos de dados e comparado a algoritmos convencionais de aprendizado de máquina.