Abordagens para análise de dados composicionais

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Prado, Naimara Vieira do
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/11/11134/tde-17082017-155240/
Resumo: Dados composicionais são vetores, chamados de composições, cujos componentes são todos positivos, satisfazem a soma igual a 1 e possuem um espaço amostral próprio chamado Simplex. A restrição da soma induz a correlação entre os componentes. Isso exige que os métodos estatísticos para análise desses conjuntos de dados considerem esse fato. A teoria para dados composicionais foi desenvolvida inicialmente por Aitchison na década de 80. Desde então, várias técnicas e métodos têm sido desenvolvidos para a modelagem dos dados composicionais. Este trabalho apresenta as principais abordagens para a análise estatística de dados composicionais independentes. Sendo, regressão Dirichlet (distribuição natural aos dados composicionais) ou o uso de transformações em razões logarítmicas que saem do espaço simplex para o espaço real. Também descreve os métodos para os casos em que a suposição de independência não pode ser atendida. Por exemplo, dados composionais com dependência espacial. Para esses casos, há na literatura métodos baseados nas teorias desenvolvidas para análise geoestatística de dados univariados; ou, no uso de transformações em razões logarítmicas com a inclusão da dependência espacial. Além de revisitar os métodos já difundidos, propõe-se o uso do método de Equações de Estimação Generalizadas (EEG) como alternativa para a análise de dados composicionais independentes e com dependência espacial. A principal vantagem é que as equações de estimação necessitam apenas da especificação de funções que descrevam a média e a estrutura de covariância. Assim, não é necessário atribuir uma distribuição de probabilidade aos dados ou fazer o uso de transformações. A aplicação do método EEG para dados composicionais independentes apresentou resultados tão eficientes quanto a regressão Dirichlet ou transformação em razões logarítmicas. Para os dados composicionais com dependência espacial, o método baseado em verossimilhança foi o que apresentou valores preditos mais próximos aos valores reais. O método EEG foi mais eficaz do que a abordagem geoestatística dos componentes individuais, porém, comparado com os demais métodos, foi o que apresentou maior valor residual.