Classificação otimizada baseada em U-estatísticas

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Soares, Mayara Belló
Orientador(a): Cybis, Gabriela Bettella
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/273741
Resumo: A modelagem de dados visando agrupamento e classificação em ambientes de alta dimensão e baixo tamanho de amostra (HDLSS - High-dimension low-sample size data) é um desafio em diferentes áreas do conhecimento. Uma alternativa é a utilização de métodos não paramétricos, por permitir uma abordagem de inferência dependendo de poucos pressupostos sobre os dados. Em particular, uma série de métodos de inferência para problemas de agrupamento e classificação baseados em U-estatísticas, implementados no pacote uclust do software R, tem gerado resultados promissores no contexto HDLSS. Buscando tornar essa abordagem melhor adaptada a diferentes estruturas de dados, o foco desta dissertação é propor um método otimizado de classificação dentro desse contexto. A classificação é realizada em duas etapas: primeiro encontramos a distância ponderada que maximiza a separação entre dois grupos de referência, medida pela estatística Bn; e em seguida utilizamos essa distância para classificar novas observações, através de um enfoque comparativo. Estudos de Monte Carlo, no contexto de HDLSS, mostram que o método otimizado apresenta melhores taxas de classificações corretas quando a diferença entre grupos está concentrada em uma fração das componentes do vetor de dados. O uso desta distância otimizada também serve como base para a proposta de um novo teste U otimizado, que verifica se dois grupos de observações são de fato distintos, e também de um novo teste de hipóteses para a classificação. Estudos de simulação mostram que nos cenários simulados, onde o classificador está bem adaptado, ambos os testes apresentam mais poder que os métodos originais. E apresenta uma aplicação dos métodos a um conjunto de dados HDLSS de pacientes de linfoma, no qual o classificador otimizado apresenta resultados favoráveis.