Detalhes bibliográficos
Ano de defesa: |
2011 |
Autor(a) principal: |
Eduardo Charles Vasconcellos |
Orientador(a): |
Haroldo Fraga de Campos Velho,
Reinaldo Ramos de Carvalho |
Banca de defesa: |
Reinaldo Roberto Rosa,
Hugo Vicente Capelato,
João Luiz Kohl Moreira |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Instituto Nacional de Pesquisas Espaciais
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação do INPE em Computação Aplicada
|
Departamento: |
Não Informado pela instituição
|
País: |
BR
|
Resumo em Inglês: |
We study the star / galaxy classification efficiency of 13 different decision tree algorithms applied to photometric objects in the Sloan Digital Sky Survey Data Release Seven (SDSS DR7). Each algorithm is defined by a set of parameters which, when varied, produce different final classification trees. We extensively explore the parameter space of each algorithm, using the set of 884, 126 SDSS objects with spectroscopic data as the training set. The efficiency of star-galaxy separation is measured using the completeness function. We find that the Functional Tree algorithm (FT) yields the best results as measured by the mean completeness in two magnitude intervals: 14 $\leq${\it r}$\leq$21 (85.2\%) and {\it r}$\geq$ 19 (82.1\%). We compare the performance of the tree generated with the optimal FT configuration to the classifications provided by the SDSS parametric classifier, 2DPHOT and Ball et alo (2006). We find that our FT classifier is comparable or better in completeness over the full magnitude range 15$\leq${\it r}$\leq$21, with much lower contamination than all but the Ball et alo (2006) classifier. At the faintest magnitudes ({\it r } > 19), our classifier is the only one that maintains high completeness (> 80\%) while simultaneously achieving low contamination (\~{} 2.5\%). We carried out an experiment with a decision tree committee machine designed with trees trained with all thirteen WEKA algorithms. The result was: for magnitudes greater then 20.5$^m$, in both a completeness \~{} 5\% and a contamination \~{}6\% lower than our pure FT tree. Finally we examine the SDSS parametric classifier (psfMag - modelMag) to see if the dividing line between stars and galaxies can be adjusted to improve the classifier. We find that currently, stars in close pairs are often misclassified as galaxies, and suggest a new cut to improve the classifier. Finally, we apply our FT classifier to separate stars from galaxies in the full set of 69,545,326 SDSS photometric objects in the magnitude range 14$\leq$ {\it r}$\leq$21. |
Link de acesso: |
http://urlib.net/sid.inpe.br/mtc-m19/2011/06.10.18.36
|
Resumo: |
Neste trabalho estudamos a eficiência de 13 algoritmos distintos para construção de árvores de decisão quando aplicados a tarefa de separar estrelas de galáxias. Esta separação é procedida com base nos dados fotométricos da sétima disponibilização de dados do ``Sloan Digital Sky Survey `` (SDSS-DR7). Cada um dos algoritmos testados está contido no software WEKA e é definido por um conjunto de parâmetros que, quando variados, podem modificar a árvore de decisão gerada. Nós exploramos extensivamente o espaço de parâmetros de cada algoritmo usando um conjunto de treinamento composto por 880.715 objetos do SDSS-DR7 que possuem espectroscopia disponível. Buscamos a configuração otimizada que permitiria a construção de uma árvore capaz de separar estrelas e galáxias com a maior precisão possível. A eficiência da separação estrelai galáxia é medida usando a função de completeza (fração de galáxias classificadas corretamente). Nossos resultados mostraram que o algoritmo FT (\textit {Functional Trees}) obteve os melhores resultados, com base na função de completeza, para dois intervalos de magnitude: 14 $\leq$ {\it r} $\leq$ 21 (85.2\%) e {\it r} $\geq$ 19 (82.1\%). Comparamos o desempenho da árvore gerada pelo FT com sua melhor configuração com separações obtidas pelo método paramétrico do SDSS, pelo 2DPHOT e por Ball et al. (2006). Essa comparação mostrou que nossa árvore gerada com o FT tem, para magnitudes no intervalo 14 $\leq$ {\it r} < 19, um desempenho similar aos demais métodos em termos de completeza, mas com uma contaminação (fração de estrelas classificadas como galáxias) muito inferior a todas menos a obtida por Ball et al, (2006). Para magnitudes fracas ({\it r} $\geq$ 19), nossa árvore é o único separador que obtém uma alta completeza (>80\%) e uma baixa contaminação (\~{} 2.5\%). Executamos também um experimento utilizando uma máquina de comitê composta por árvores de decisão treinadas com todos os 13 algoritmos do WEKA. Este experimento resultou em uma queda na função de completeza de \~{}5\% para magnitudes maiores que {\it 19.5} $^{m}$ quando comparada à completeza obtida pelo FT. Por outro lado, a amostra de galáxias gerada pelo comitê apresenta uma contaminação aproximadamente 6\% menor que a gerada pelo FT. Por fim examinamos o separador paramétrico do SDSS (psfMag - modelMag) com intuito de verificar se a linha divisória que separa os objetos poderia ser mais precisa. Identificamos que muitos pares de estrelas próximas estão sendo classificados erroneamente como galáxias, e sugerimos um novo valor de corte para melhorar a precisão do separador do SDSS. Por fim, aplicamos nossa árvore de decisão gerada com o FT para separar estrelas de galáxias em todo o conjunto de 69.545.326 objetos da amostra fotométrica do SDSS-DR7 com magnitudes no intervalo 14 $\leq$ {\it r} $\leq$ 21. |