Extração e classificação de licitações do Diário Oficial do Estado de SP

Bibliographic Details
Main Author: Satyro, Vitor
Publication Date: 2021
Other Authors: Liu, Vitor, Delchiaro, Lucca, Schoueri, Guilherme
Language: por
Source: Repositório Institucional da INSPER
Download full: https://repositorio.insper.edu.br/handle/11224/3712
Summary: Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.
id INSP_d58624e34e09f8ab69e94806b382cecc
oai_identifier_str oai:repositorio.insper.edu.br:11224/3712
network_acronym_str INSP
network_name_str Repositório Institucional da INSPER
repository_id_str
spelling Extração e classificação de licitações do Diário Oficial do Estado de SPclassificação de textoreconhecimento óptico de caracteresprocessamento de imagemoptical character recognitiontext classificationimage processingScikit LearnPyTesseract.Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.Não informadoGraduaçãoProjeto realizado para empresa Dell - Mentor na Empresa: Diego GalloMontagner, Igor dos SantosSatyro, VitorLiu, VitorDelchiaro, LuccaSchoueri, GuilhermeSatyro, VitorLiu, VitorDelchiaro, LuccaSchoueri, Guilherme2022-07-03T01:25:47Z2022-07-03T01:25:47Z2021bachelor thesisinfo:eu-repo/semantics/publishedVersion29 p.Digitalapplication/pdfhttps://repositorio.insper.edu.br/handle/11224/3712BrasilSão PauloTODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEMinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da INSPERinstname:Instituição de Ensino Superior e de Pesquisa (INSPER)instacron:INSPER2025-06-12T13:32:47Zoai:repositorio.insper.edu.br:11224/3712Biblioteca Digital de Teses e Dissertaçõeshttps://www.insper.edu.br/biblioteca-telles/PRIhttps://repositorio.insper.edu.br/oai/requestbiblioteca@insper.edu.br || conteudobiblioteca@insper.edu.bropendoar:2025-06-12T13:32:47Repositório Institucional da INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER)false
dc.title.none.fl_str_mv Extração e classificação de licitações do Diário Oficial do Estado de SP
title Extração e classificação de licitações do Diário Oficial do Estado de SP
spellingShingle Extração e classificação de licitações do Diário Oficial do Estado de SP
Satyro, Vitor
classificação de texto
reconhecimento óptico de caracteres
processamento de imagem
optical character recognition
text classification
image processing
Scikit Learn
PyTesseract.
title_short Extração e classificação de licitações do Diário Oficial do Estado de SP
title_full Extração e classificação de licitações do Diário Oficial do Estado de SP
title_fullStr Extração e classificação de licitações do Diário Oficial do Estado de SP
title_full_unstemmed Extração e classificação de licitações do Diário Oficial do Estado de SP
title_sort Extração e classificação de licitações do Diário Oficial do Estado de SP
author Satyro, Vitor
author_facet Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
author_role author
author2 Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
author2_role author
author
author
dc.contributor.none.fl_str_mv Montagner, Igor dos Santos
dc.contributor.author.fl_str_mv Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
dc.subject.por.fl_str_mv classificação de texto
reconhecimento óptico de caracteres
processamento de imagem
optical character recognition
text classification
image processing
Scikit Learn
PyTesseract.
topic classificação de texto
reconhecimento óptico de caracteres
processamento de imagem
optical character recognition
text classification
image processing
Scikit Learn
PyTesseract.
description Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.
publishDate 2021
dc.date.none.fl_str_mv 2021
2022-07-03T01:25:47Z
2022-07-03T01:25:47Z
dc.type.driver.fl_str_mv bachelor thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.insper.edu.br/handle/11224/3712
url https://repositorio.insper.edu.br/handle/11224/3712
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 29 p.
Digital
application/pdf
dc.coverage.none.fl_str_mv Brasil
São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da INSPER
instname:Instituição de Ensino Superior e de Pesquisa (INSPER)
instacron:INSPER
instname_str Instituição de Ensino Superior e de Pesquisa (INSPER)
instacron_str INSPER
institution INSPER
reponame_str Repositório Institucional da INSPER
collection Repositório Institucional da INSPER
repository.name.fl_str_mv Repositório Institucional da INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER)
repository.mail.fl_str_mv biblioteca@insper.edu.br || conteudobiblioteca@insper.edu.br
_version_ 1839074957422755840