Estatística GAP temporal: um novo índice interno de validação de agrupamento de dados temporais
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal da Bahia
Instituto de Matemática e Estatística Departamento de Ciências da Computação |
Programa de Pós-Graduação: |
em Ciência da Computação
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.ufba.br/ri/handle/ri/33633 |
Resumo: | Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatı́stica. Esses critérios são comumente divididos em 3 categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em ı́ndices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses ı́ndices são aplicados sobre dados caracterizados por serem independentes e identicamente distribuı́dos. A realização de uma Revisão Sistemática da Literatura demonstrou que há um número reduzido de pesquisas que investigam ı́ndices de validação de agrupamento para dados com dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de ı́ndices que utilizam critério interno de validação. Para superar essa limitação, este trabalho de mestrado apresenta um novo ı́ndice interno de validação baseado na estatı́stica GAP (Gap Statistic). Este novo ı́ndice foi desenvolvido com o objetivo de mensurar e validar informações extraı́das de dados temporais com comportamento caótico a partir da aplicação de técnicas de Sistemas Dinâmicos e de Aprendizado de Máquina não-supervisionado. Resultados experimentais demonstraram a eficiência do novo ı́ndice interno de validação para dados com dependência temporal e confirmaram a importância do mesmo para o estado da arte. |