Métodos robustos em regressão linear para dados simbólicos do tipo intervalo

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: DOMINGUES, Marco Antonio de Oliveira
Orientador(a): SOUZA, Renata Maria Cardoso Rodrigues de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/1700
Resumo: A análise de dados simbólicos (Symbolic Data Analysis - SDA) tem se destacado como um conjunto de ferramentas úteis à análise de grandes bases de dados, aprendizagem de máquina e reconhecimento de padrões. Os dados simbólicos podem representar variáveis estruturadas, listas, intervalos e distribuições. Nesse contexto, vários métodos estatísticos têm sido estendidos para o domínio de SDA (análise de cluster, estatísticas descritivas, componentes principais, análise fatorial, regressão linear, e outras). Como exemplo, os métodos de regressão linear propostos recentemente para dados simbólicos são extensões do método dos mínimos quadrados para minimização dos erros do modelo. Estes métodos estimam os parâmetros do modelo da regressão linear considerando apenas as informações sobre os pontos médios (centros) das variáveis simbólicas, considerando os valores dos limites inferiores e superiores dos intervalos e considerando os valores dos pontos médios e das amplitudes dos intervalos. Apesar da técnica dos mínimos quadrados ser computacionalmente simples, a qualidade dos ajustes é degradada quando o conjunto sob investigação contém dados atípicos. Na análise de regressão clássica, esses dados atípicos são frequentemente removidos do conjunto de dados sob investigação, sendo normalmente considerados como erros do processo. Contudo, em SDA, esse tipo de procedimento não é aconselhável, haja vista um dado simbólico poder representar a generalização de um conjunto de outras observações clássicas. Este trabalho propõe um método resistente (robusto) de regressão linear para dados simbólicos do tipo intervalo, paramétrico, inspirado na análise de regressão simétrica, cujos estimadores tenham alto ponto de ruptura . O método proposto permite ainda a construção de intervalos de confiança e testes de hipóteses para os parâmetros do ajuste, enquanto os métodos encontrados na literatura não estabelecem suposições probabilísticas. Além disso, considerando que a ausência de observações atípicas em um conjunto de dados indica a possibilidade de utilização de métodos baseados nos mínimos quadrados, esta tese também propõe um conjunto de técnicas para a identificação de dados simbólicos intervalares atípicos