Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing

Detalhes bibliográficos
Autor(a) principal: Veronese, Lucas de Paula
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
Texto Completo: http://repositorio.ufes.br/handle/10/6356
Resumo: In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server.
id UFES_c05bcb5196ef9a0cfd9bd3e7081d2218
oai_identifier_str oai:repositorio.ufes.br:10/6356
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str 2108
spelling Avaliação de um sistema escalável de classificação CNAE implementado em cloud computingRecuperação da informaçãoDocumentos eletrônicosAprendizado do computadorExploração de dados (Computação)Computação em nuvemCiência da Computação004In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server.Em problemas de classificação automática de texto com um grande número de rótulos, as bases de dados de treinamento são extensas, o que pode tornar o tempo de classificação proibitivo para os sistemas on-line. Destarte, nossa motivação para a realização deste trabalho veio da necessidade de o Governo Federal implementar no país um Cadastro Sincronizado Nacional (CSN) de empresas, onde a Classificação Nacional de Atividades Econômicas (CNAE) seria parte constituinte. Nesta tarefa de classificação, são associados um ou mais códigos CNAE-Subclasses à descrição de atividades econômicas de empresas. Vale destacar que, em 2009, a tarefa de atribuir ou revisar tais códigos CNAE foi realizada no país cerca de duas milhões de vezes. Diante disto, para a realização deste trabalho, nós investigamos o uso de servidores Web baseado em Cloud Computing devido à escalabilidade e ao baixo custo de desenvolvimento e operação. Pela facilidade de utilização e fornecimento de quotas livres, o servidor de Cloud Computing escolhido para desenvolvimento da aplicação foi o Google App Engine. Desta forma, nós projetamos, implementamos e hospedamos um sistema de classificação de textos dentro de tal servidor. No entanto, o Google App Engine cobra pelo serviço que ultrapassa a quantidade de quota livre (renovável diariamente), então, quanto menor a complexidade do processamento do sistema, menor o custo financeiro da aplicação. Foi feita uma otimização no sistema de armazenamento dos classificadores, aproveitando as características das bases de dados textuais. Houve uma redução do custo computacional do sistema e, em consequência, para a demanda atual de requisições CNAE o custo financeiro anual seria de 2000 dólares americanos. Este é um valor irrisório se comparado aos custos de infra-estrutura, manutenção e energia necessários para realizar um serviço semelhante ao de um servidor Web tradicional.Conselho Nacional de Desenvolvimento Científico e TecnológicoUniversidade Federal do Espírito SantoBRMestrado em InformáticaCentro TecnológicoUFESPrograma de Pós-Graduação em InformáticaOliveira, Elias Silva deFreitas, Fábio Daros deSouza, Alberto Ferreira deVeronese, Lucas de Paula2016-12-23T14:33:35Z2013-07-242016-12-23T14:33:35Z2011-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTextapplication/pdfVERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011.http://repositorio.ufes.br/handle/10/6356porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFES2024-07-17T17:01:41Zoai:repositorio.ufes.br:10/6356Repositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestriufes@ufes.bropendoar:21082024-07-17T17:01:41Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
title Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
spellingShingle Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
Veronese, Lucas de Paula
Recuperação da informação
Documentos eletrônicos
Aprendizado do computador
Exploração de dados (Computação)
Computação em nuvem
Ciência da Computação
004
title_short Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
title_full Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
title_fullStr Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
title_full_unstemmed Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
title_sort Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
author Veronese, Lucas de Paula
author_facet Veronese, Lucas de Paula
author_role author
dc.contributor.none.fl_str_mv Oliveira, Elias Silva de
Freitas, Fábio Daros de
Souza, Alberto Ferreira de
dc.contributor.author.fl_str_mv Veronese, Lucas de Paula
dc.subject.por.fl_str_mv Recuperação da informação
Documentos eletrônicos
Aprendizado do computador
Exploração de dados (Computação)
Computação em nuvem
Ciência da Computação
004
topic Recuperação da informação
Documentos eletrônicos
Aprendizado do computador
Exploração de dados (Computação)
Computação em nuvem
Ciência da Computação
004
description In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server.
publishDate 2011
dc.date.none.fl_str_mv 2011-03-17
2013-07-24
2016-12-23T14:33:35Z
2016-12-23T14:33:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011.
http://repositorio.ufes.br/handle/10/6356
identifier_str_mv VERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011.
url http://repositorio.ufes.br/handle/10/6356
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Informática
Centro Tecnológico
UFES
Programa de Pós-Graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Informática
Centro Tecnológico
UFES
Programa de Pós-Graduação em Informática
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv riufes@ufes.br
_version_ 1834478841038372864