Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
Ano de defesa: | 2017 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Ponta Grossa |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia de Produção
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/2387 |
Resumo: | A neoplasia é um grande desafio para os pesquisadores devido a sua alta complexidade. Apesar dos avanços em diagnósticos, os estudos apontam que, além da análise de dados, são necessários métodos que otimizem e auxiliem o processo de tomada de decisão. Neste sentido, a redução de dimensionalidade de dados tem contribuído significativamente, auxiliando nesse processo, devido à quantidade de genes (atributos), ser muito ampla comparada ao número de amostras (classes). Este trabalho, portanto, visa fornecer um estudo comparativo entre dois métodos de redução de dimensionalidade, aplicados em três bases de dados no domínio de expressão gênica: LungCancer-Michigan, LungCancer-Ontario e LungCancerHarvard, todas relacionadas ao câncer de pulmão. Os métodos aplicados foram: Seleção de Atributos e Análise de Componentes Principais (PCA), ambos usados como uma etapa de pré-processamento na Mineração de Dados. Os algoritmos de classificação escolhidos foram: Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN e 7-NN. Foi utilizado o Weka como software para procedimentos de análise. Uma série de experimentos foi realizada para avaliar a acurácia e aplicabilidade dos algoritmos para ambos os métodos. Como resultado, foram evidenciados avanços significativos nas taxas de acerto (acurácia) dos classificadores envolvendo os métodos empregados, utilizando como critério de avaliação a Validação Cruzada. A abordagem Wrapper, do método de Seleção de Atributos, obteve os melhores resultados para as três bases de dados analisadas. O método de Análise de Componentes Principais, mesmo apresentando taxa de acerto inferior, não pode ser descartado. Os algoritmos Naive Bayes, SVM e 1-NN foram os que apresentaram melhor desempenho dentre as bases. Foram denotados os atributos (genes) que apresentaram maior frequência nas bases de dados. Portanto, a partir dos subconjuntos escolhidos, estes podem ser submetidos a análises específicas, no intuito de direcionar diagnósticos mais precisos. |