Detalhes bibliográficos
Ano de defesa: |
2021 |
Autor(a) principal: |
CHIKUSHI, Rohgi Toshio Meneses |
Orientador(a): |
BARROS, Roberto Souto Maior de |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/45629
|
Resumo: |
Atualmente, algoritmos de Aprendizado de Máquina são aplicados em diversos domínios para a extração de informação em grandes volumes de dados. Apesar de modelos consolidados lidarem de forma efetiva com dados identicamente e independentemente distribuídos (i.i.d.), algoritmos aplicados a fluxos contínuos de dados devem lidar com distribuições não estacioná- rias. O desafio é manter um modelo de decisão atualizado, preciso e consistente, mesmo sujeito a mudanças nas distribuições de probabilidade dos dados, um fenômeno conhecido como mu- dança de conceito. Neste contexto, os algoritmos combinam um classificador e um detector para identificar mudanças na distribuição do erro das predições a fim de adaptar ou substi- tuir rapidamente o modelo preditivo. Diversas propostas têm sido apresentadas na literatura para a detecção de mudanças de conceito com base na taxa de erro dos modelos preditivos. Em geral, a distribuição da taxa de erro fundamenta a maioria das abordagens baseadas em metodologias como a análise sequencial, o controle estatístico do processo, ou pelo monito- ramento das distribuições por meio de janelas deslizantes, as quais assumem que os erros de predição são gerados de forma independente. Apesar da vasta aplicação desses detectores, estudos empíricos têm mostrado que a taxa de erro pode ser influenciada pela dependência temporal. Além disso, abordagens supervisionadas requerem dados rotulados, os quais podem ser difíceis de obter em muitas aplicações do mundo real. Nesta tese, ferramentas de Análise de Séries Temporais Não Lineares foram utilizadas com o objetivo de prover detectores não restritos ao pressuposto de observações i.i.d e mais apropriados para lidar com fluxos de da- dos sujeitos à dependência temporal. Neste sentido, foram propostos três detectores: Spectral Entropy Drift Detector (SEDD), Permutation Entropy Drift Detector (PEDD), e Recurrence Quantification Analysis Drift Detector (RQADD). Também foi proposto o Symbolic Labeling Adapter (SLA), uma abordagem de pseudo-rotulação simbólica com o intuito de expandir a aplicação de modelos adaptativos supervisionados a domínios onde fluxos de dados não são rotulados, visando a detecção de mudanças de conceito. Experimentos com os classificadores Naïve Bayes e Hoffding Tree utilizando 15 detectores, 20 bases de dados reais e 360 artificiais, sugerem que o SEDD, embora não tenha superado o estado da arte em termos de acurácia na maioria dos cenários, não apresentou diferença estatística significativa em relação aos mes- mos, sinalizando menos alarmes falsos. De modo semelhante, os detectores PEDD e RQADD foram competitivos acerca das detecções de mudanças de conceito na maioria das avaliações, principalmente utilizando o SLA com bases não rotuladas (30 artificiais e 26 de eletroence- falograma). Desse modo, pode-se considerar os detectores propostos como uma alternativa competitiva, e a abordagem de pseudo-rotulação simbólica uma ferramenta promissora. |