Detalhes bibliográficos
Ano de defesa: |
2010 |
Autor(a) principal: |
Cerri, Ricardo |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06042010-151017/
|
Resumo: |
Muitos dos problemas de classificação descritos na literatura de Aprendizado de Máquina e Mineração de Dados dizem respeito à classificação de dados em que cada exemplo a ser classificado pertence a um conjunto finito, e geralmente pequeno, de classes que estão em um mesmo nível. Vários problemas de classificação, entretanto, são de natureza hierárquica, em que classes podem ser subclasses ou superclasses de outras classes. Em muitos problemas hierárquicos, principalmente no campo da Bioinformática, um ou mais exemplos podem ser associados a mais de uma classe simultaneamente. Esses problemas são conhecidos como problemas de classificação hierárquica tirrótulo. Nesta pesquisa, foram investigadas diferentes técnicas para lidar com esses tipos de problemas. Essas técnicas são baseadas em duas abordagens: local ou Top-Down e global ou One-Shot. Três técnicas descritas na literatura foram utilizadas. A primeira delas, chamada HMC-BR, é baseada na abordagem Top-Down, e utiliza uma estratégia de classificação binária chamada Um-Contra-Todos. As outras duas técnicas, baseadas na abordagem One-Shot, são chamadas C4.5H (uma extensão do algoritmo de indução de àrvores de decis~ao C4.5), e de Clus-HMC (baseada na noção de Predictive Clustering Trees, em que àrvores de decisão são estruturadas como uma hierarquia de grupos (clusters)). Além das técnicas descritas na literatura, duas novas técnicas foram propostas e implementadas nesta pesquisa, chamadas de HMC-LP e HMC-CT. Essas técnicas são variações hierárquicas de técnicas de classificação multirrótulo não hierárquicas. A técnica HMC-LP utiliza uma estratégia de combinação de classes e a técnica HMC-CT utiliza uma estratégia de decomposição de classes. Para a avaliação das técnicas, foram utilizadas medidas específicas para esse tipo de classificação. Os resultados experimentais mostraram que as técnicas propostas obtiveram desempenhos superiores ou semelhantes aos das técnicas descritas na literatura, dependendo da medida de avaliação utilizada e das características dos conjuntos de dados |