Uma extensão do classificador k-NN para múltiplos espaços

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Flávia de Toledo Martins-Bedê
Orientador(a): Sandra Aparecida Sandri, Luciano Vieira Dutra
Banca de defesa: Stephan Stephany, Ana Carolina Lorena, Getúlio Teixeira Batista
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação: Programa de Pós-Graduação do INPE em Computação Aplicada
Departamento: Não Informado pela instituição
País: BR
Resumo em Inglês: The k Nearest Neighbors mo del (k-NN) is a popular classification method used in pattern recognition. This technique assigns to an unlabeled pattern the class from the majority of its nearest neighbors, according to a given distance in the attribute space. The extended version ofk-NN, proposed in this work, is named multiple space Nearest Neighbors (ms-NN). This version includes the use of multiple semantically distinct attribute spaces in the mo del generation. For each space, it is defined a number of neighbors and a distance metric. Besides, the geographic information of the objects can be included as a separate space, provided that they are represented as points or polygons. In this work, we also propose the use of fuzzy relations to evaluate the proximity among cases. The proposed ms-NN method was used to map the risk of schistomiasis prevalence in the state of Minas Gerais and for land cover classification in the Amazon region (Tapajós). The results were compared with classifications obtained with k-NN and two other classifiers, decision tree and support vector machine (SVM), commonly used in pattern recognition problems. The global accuracy of each model was evaluated using Monte Carlo method. The paired T test was used to evaluate the statistical difference among the accuracies. The results show a significative improvement of the classifications when compared to k-NN.
Link de acesso: http://urlib.net/sid.inpe.br/mtc-m21b/2014/03.11.18.59
Resumo: O algoritmo dos k vizinhos mais próximos (k-NN, do inglês k \emph{Nearest Neighbors}) é uma técnica de classificação bastante popular em reconhecimento de padrões. Essa técnica consiste em atribuir uma classe a um elemento com rótulo desconhecido usando a classe da maioria de seus vizinhos mais próximos, segundo uma determinada distância no espaço de atributos. A sua versão estendida, proposta neste trabalho, é identificada como vizinhos mais próximos em múltiplos espaços (ms- NN, do inglês: \emph{multiple space Nearest Neighbors}). Essa versão incorpora na construção do modelo a utilização de múltiplos espaços de atributos semanticamente distintos. Para cada espaço, é definido um número de vizinhos e um tipo de distância. Além disso, a localização geográfica dos objetos pode ser incluída como um espaço, desde que estes estejam representados por polígonos ou pontos. A construção do modelo ms-NN baseia-se na procura de vizinhos para cada distância utilizada. Neste trabalho, também é proposto o uso de relações difusas para avaliar a proximidade entre casos. O método ms-NN proposto foi usado para mapear o risco da prevalência da esquistossomose no estado de Minas Gerais e para classificação da cobertura da terra na região amazônica (Tapajós). As classificações resultantes do ms-NN foram comparadas com as classificações do k-NN e de outras duas técnicas, árvore de decisão e máquinas de vetores de suporte (SVM, do inglês: \emph{Support Vector Machine}), comumente usadas em problemas de reconhecimento de padrões. As acurácias das classificações de cada modelo foram avaliadas usando o método Monte Carlo. Também foi feito o teste T pareado para avaliar a diferença estatística entre as classificações. Os resultados demonstram uma melhora significava das acurácias do método proposto quando comparadas com as acurácias obtidas pelo k-NN.