Combinação de classificadores em diferentes espaços de características para classificação de documentos
Ano de defesa: | 2017 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/24893 |
Resumo: | Classificação de Documentos é um problema no qual um documento em linguagem natural deve ser designado como pertencente à uma das classes pré-estabelecidas. A Classificação de Documentos, com vetores de características gerados pela Bag-of-Words, possui duas dificuldades notáveis: alta dimensionalidade e matriz de dados esparsa. Seleção de características reduzem essas dificuldades, mas descarta informação no processo. Uma alternativa é realizar transformações sobre as características, pois ao alterar as características é possível trabalhar sem descartar informações, possibilitando uma melhoria nas taxas de reconhecimento e, em alguns casos, redução da dimensionalidade e esparsidade. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto de distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto do conjunto original. A utilização da DR pode reduzir tanto a alta dimensionalidade quanto a esparsidade. Enquanto que a utilização da DT, apesar de não reduzir a dimensionalidade ou esparsidade, melhora as taxas de reconhecimento do classificador, pois trabalha com uma quantidade maior de documentos sobre um problema transformado para duas classes. Neste trabalho, são propostos dois sistemas de múltiplos classificadores para Classificação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações citadas acima. Os múltiplos classificadores se beneficiam da necessidade de encontrar um conjunto para as transformações, pois utilizando diferentes conjuntos possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos da literatura usando até 47 bancos de dados públicos e os resultados mostram que as propostas atingem desempenho superior na maioria dos casos. |