Online boosting para problemas multiclasse

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: SANTOS, Silas Garrido Teixeira de Carvalho
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/34465
Resumo: A predição online em ambientes em que as informações fluem de forma contínua, rápida e em grandes quantidades vem se tornando cada vez mais importante na solução de problemas reais. Nesse tipo de cenário a distribuição dos dados geralmente evolui com o tempo, desencadeando uma situação conhecida como mudança de conceito (concept drift). Dentre os principais desafios da área, um deles é fazer com que os métodos lidem com muita informação de maneira satisfatória e levando em consideração as limitações computacionais. Uma das técnicas que vem recebendo notoriedade também neste tipo de cenário é o boosting. Sua característica é combinar as hipóteses de diferentes classificadores fracos com o objetivo de transformá-los em um único classificador forte. A utilização do boosting de maneira online é uma prática relativamente nova, inspirada no sucesso da sua versão offline, e que vem se desenvolvendo com o objetivo de atender novas demandas. Por conta disso, diversos aspectos ainda permanecem pouco explorados, a exemplo dos problemas multiclasse. Esta tese propõe dois novos métodos online de boosting para problemas multiclasse. O primeiro deles (OABM1) tem por objetivo realizar uma melhor distribuição dos pesos das instâncias equiparando suas características ao tradicional AdaBoost.M1 e com uma baixa complexidade computacional; já o segundo (OABM2) foca em um tratamento mais especializado para os problemas multiclasse e é baseado no AdaBoost.M2. Argumentações teóricas foram utilizadas para demonstrar que ambos mantêm as principais características dos métodos em que são baseados e que convergem em cenários no qual os dados são independentes e identicamente distribuídos (IID). Experimentalmente, os métodos propostos foram comparados a outras abordagens semelhantes em termos de acurácia e consumo de memória. Foram utilizados cenários onde a convergência dos métodos é garantida (IID) e também cenários onde não existe essa garantia, ou seja, os dados podem mudar de distribuição e podem ter algum tipo de dependência entre eles, situação comum em ambientes com fluxo contínuo de dados. Em ambos os casos, tanto o OABM1 quanto o OABM2 apresentaram desempenho igual ou superior a outras abordagens relacionadas. Por fim, como contribuição adicional, esta tese propõe um método empírico com o objetivo de guiar na escolha de uma parametrização adequada para métodos detectores de mudanças de conceito no contexto de classificadores únicos (single classifiers). A base desse método vem de experimentos pré-processados em oito geradores artificiais, cada um deles com mudanças abruptas e graduais, além de seis bases reais, onze detectores e dois classificadores. A performance de todos os onze detectores foram comparadas utilizando seus parâmetros padrões e várias outras parametrizações prescritas pelo método. Resultados indicaram que a performance desses detectores aumenta consideravelmente com a utilização do método proposto.