O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Agnaldo Lopes Martins
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/BUOS-9RQHC6
Resumo: This thesis aimed to evaluate the use of the noun phrase as a data source for an automatic classification of text documents stored in digital format. Various technological tools that have transformed scientific articles in a list of noun phrases that have been used for a classifier system based on supervised learning training. Among the tools used the words were responsible for the identification and removal of noun phrases of corporas. For training the classifier machine the application SVMLight was used. The methodology was developed in two stages; the first qualitative test was performed when comparing the documents of the corpus; and in the second stage SVM training was conducted using a larger number of documents. At the end, several tests were performed and it is possible to demonstrate that the proposed methodology was able to classify documents with high precision.