Uma metodologia de identificação e tratamento de pontos fora da curva ("outliers")

Detalhes bibliográficos
Ano de defesa: 1996
Autor(a) principal: Arie Zeyulun Lionel Dotan
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Tecnológico de Aeronáutica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1610
Resumo: "Outliers" são pontos que se desviam do restante dos pontos de uma amostra, parecendo ter sido gerados por um mecanismo distinto. Os "outliers" podem contaminar as características de uma amostra e causar uma tendenciosidade ou até mesmo falha de estimadores. Este trabalho tem como objetivo avaliar e comparar novas metodologias de identificação e tratamento de "outliers" com as metodologias de regressão robusta e convencional existentes. Foi avaliada uma nova metodologia de identificação de "outliers", LTS-n, minimização da somatória dos resíduos ao quadrado, comparando-a com as seguintes metodologias: (a) LMS: minimização da mediana do resíduo ao quadrado; (b) LTS-h: minimização da somatória de, aproximadamente, metade dos resíduos ao quadrado, ordenados; e (c) metodologia convencional de "Banda" (margem em torno de uma curva de referência). Foi sugerida uma nova metodologia de tratamento de "outliers" cujo princípio primordial consiste em não se descartar totalmente os "outliers" mas sim suavizar o critério de eliminação dos mesmos, WLS, com atribuição de peso parcial (entre zero e um) aos "outliers" marginais. A avaliação foi realizada através da comparação com a metodologia convencional RLS, que atribui peso 0 ou 1. Para tanto, foi desenvolvido um software empregando as metodologias citadas anteriormente. Após a análise de diversos exemplos, concluiu-se que as metodologias de regressão robusta são ferramentas mais eficientes na identificação de "outliers" do que a metodologia Banda, cujas curvas de referência tornam-se tendenciosas devido à presença dos "outliers". A metodologia LTS-n é menos resistente aos "outliers" que as outras regressões robustas (LMS, LTS-h). A WLS é significativamente diferente da RLS quando a amostra possui um percentual elevado de "outliers" (acima de 10%). A grande vantagem desta metodologia consiste em não se descartar "outliers" marginais. O uso desta metodologia mostrou-se interessante tanto para amostras pequenas (n<15), quando não se deseja descartar observações de forma arbitrária, como também para grandes massas de dados em sistemas automáticos de decisões.