Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2011 |
| Tipo de documento: | Dissertação |
| Idioma: | por |
| Título da fonte: | Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| Texto Completo: | http://repositorio.ufes.br/handle/10/6356 |
Resumo: | In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server. |
| id |
UFES_c05bcb5196ef9a0cfd9bd3e7081d2218 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufes.br:10/6356 |
| network_acronym_str |
UFES |
| network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| repository_id_str |
2108 |
| spelling |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computingRecuperação da informaçãoDocumentos eletrônicosAprendizado do computadorExploração de dados (Computação)Computação em nuvemCiência da Computação004In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server.Em problemas de classificação automática de texto com um grande número de rótulos, as bases de dados de treinamento são extensas, o que pode tornar o tempo de classificação proibitivo para os sistemas on-line. Destarte, nossa motivação para a realização deste trabalho veio da necessidade de o Governo Federal implementar no país um Cadastro Sincronizado Nacional (CSN) de empresas, onde a Classificação Nacional de Atividades Econômicas (CNAE) seria parte constituinte. Nesta tarefa de classificação, são associados um ou mais códigos CNAE-Subclasses à descrição de atividades econômicas de empresas. Vale destacar que, em 2009, a tarefa de atribuir ou revisar tais códigos CNAE foi realizada no país cerca de duas milhões de vezes. Diante disto, para a realização deste trabalho, nós investigamos o uso de servidores Web baseado em Cloud Computing devido à escalabilidade e ao baixo custo de desenvolvimento e operação. Pela facilidade de utilização e fornecimento de quotas livres, o servidor de Cloud Computing escolhido para desenvolvimento da aplicação foi o Google App Engine. Desta forma, nós projetamos, implementamos e hospedamos um sistema de classificação de textos dentro de tal servidor. No entanto, o Google App Engine cobra pelo serviço que ultrapassa a quantidade de quota livre (renovável diariamente), então, quanto menor a complexidade do processamento do sistema, menor o custo financeiro da aplicação. Foi feita uma otimização no sistema de armazenamento dos classificadores, aproveitando as características das bases de dados textuais. Houve uma redução do custo computacional do sistema e, em consequência, para a demanda atual de requisições CNAE o custo financeiro anual seria de 2000 dólares americanos. Este é um valor irrisório se comparado aos custos de infra-estrutura, manutenção e energia necessários para realizar um serviço semelhante ao de um servidor Web tradicional.Conselho Nacional de Desenvolvimento Científico e TecnológicoUniversidade Federal do Espírito SantoBRMestrado em InformáticaCentro TecnológicoUFESPrograma de Pós-Graduação em InformáticaOliveira, Elias Silva deFreitas, Fábio Daros deSouza, Alberto Ferreira deVeronese, Lucas de Paula2016-12-23T14:33:35Z2013-07-242016-12-23T14:33:35Z2011-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTextapplication/pdfVERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011.http://repositorio.ufes.br/handle/10/6356porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFES2024-07-17T17:01:41Zoai:repositorio.ufes.br:10/6356Repositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestriufes@ufes.bropendoar:21082024-07-17T17:01:41Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
| dc.title.none.fl_str_mv |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| title |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| spellingShingle |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing Veronese, Lucas de Paula Recuperação da informação Documentos eletrônicos Aprendizado do computador Exploração de dados (Computação) Computação em nuvem Ciência da Computação 004 |
| title_short |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| title_full |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| title_fullStr |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| title_full_unstemmed |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| title_sort |
Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing |
| author |
Veronese, Lucas de Paula |
| author_facet |
Veronese, Lucas de Paula |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Oliveira, Elias Silva de Freitas, Fábio Daros de Souza, Alberto Ferreira de |
| dc.contributor.author.fl_str_mv |
Veronese, Lucas de Paula |
| dc.subject.por.fl_str_mv |
Recuperação da informação Documentos eletrônicos Aprendizado do computador Exploração de dados (Computação) Computação em nuvem Ciência da Computação 004 |
| topic |
Recuperação da informação Documentos eletrônicos Aprendizado do computador Exploração de dados (Computação) Computação em nuvem Ciência da Computação 004 |
| description |
In problems in automatic text classification with a large number of labels, training databases are large, therefore the classification time can become prohibitive for online rating systems. Thus, our motivation for this work came from the need of the Federal Government to implement a Cadastro Sincronizado Nacional (CSN) of companies, where the Classificação Nacional de Atividades Econômicas (CNAE) would compose the system. In this classification task one or more CNAE-Subclasses codes are associated to the description of the economic activities of companies. It is worth noticing that in 2009, the task of assigning codes or revise the CNAE was done in the country about 2 million times. This way, we investigated the use ofWeb servers based on Cloud Computing on its scalability and low cost of development and operation. Due to the ease of use and free quotas, the Cloud Computing server chosen for this application development was Google App Engine. Thus, we designed, implemented and hosted a system of classification of such texts on the server. However, Google App Engine service charges for exceeding the amount of free quota (renewable every day), whereas the lower the complexity of the processing system, the lower the financial cost of implementation. Aiming this, an optimization was performed on the storage system of classifiers, taking advantage of the features of the text base. We successfully reduced the computational cost of the system and, in consequence, it was estimated that for the current demand of requests the CNAE annual financial cost would be $ 2,000. This is a small amount when it is compared to the cost of infrastructure, maintenance and power that would take to perform a similar service to a traditional Web server. |
| publishDate |
2011 |
| dc.date.none.fl_str_mv |
2011-03-17 2013-07-24 2016-12-23T14:33:35Z 2016-12-23T14:33:35Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
VERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011. http://repositorio.ufes.br/handle/10/6356 |
| identifier_str_mv |
VERONESE, Lucas de Paula. Avaliação de um sistema escalável de classificação CNAE implementado em cloud computing. 2011. 75 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2011. |
| url |
http://repositorio.ufes.br/handle/10/6356 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
Text application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo BR Mestrado em Informática Centro Tecnológico UFES Programa de Pós-Graduação em Informática |
| publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo BR Mestrado em Informática Centro Tecnológico UFES Programa de Pós-Graduação em Informática |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
| instname_str |
Universidade Federal do Espírito Santo (UFES) |
| instacron_str |
UFES |
| institution |
UFES |
| reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
| repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
| repository.mail.fl_str_mv |
riufes@ufes.br |
| _version_ |
1834478841038372864 |