Extração e classificação de licitações do Diário Oficial do Estado de SP
| Main Author: | |
|---|---|
| Publication Date: | 2021 |
| Other Authors: | , , |
| Language: | por |
| Source: | Repositório Institucional da INSPER |
| Download full: | https://repositorio.insper.edu.br/handle/11224/3712 |
Summary: | Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest. |
| id |
INSP_d58624e34e09f8ab69e94806b382cecc |
|---|---|
| oai_identifier_str |
oai:repositorio.insper.edu.br:11224/3712 |
| network_acronym_str |
INSP |
| network_name_str |
Repositório Institucional da INSPER |
| repository_id_str |
|
| spelling |
Extração e classificação de licitações do Diário Oficial do Estado de SPclassificação de textoreconhecimento óptico de caracteresprocessamento de imagemoptical character recognitiontext classificationimage processingScikit LearnPyTesseract.Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.Não informadoGraduaçãoProjeto realizado para empresa Dell - Mentor na Empresa: Diego GalloMontagner, Igor dos SantosSatyro, VitorLiu, VitorDelchiaro, LuccaSchoueri, GuilhermeSatyro, VitorLiu, VitorDelchiaro, LuccaSchoueri, Guilherme2022-07-03T01:25:47Z2022-07-03T01:25:47Z2021bachelor thesisinfo:eu-repo/semantics/publishedVersion29 p.Digitalapplication/pdfhttps://repositorio.insper.edu.br/handle/11224/3712BrasilSão PauloTODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEMinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da INSPERinstname:Instituição de Ensino Superior e de Pesquisa (INSPER)instacron:INSPER2025-06-12T13:32:47Zoai:repositorio.insper.edu.br:11224/3712Biblioteca Digital de Teses e Dissertaçõeshttps://www.insper.edu.br/biblioteca-telles/PRIhttps://repositorio.insper.edu.br/oai/requestbiblioteca@insper.edu.br || conteudobiblioteca@insper.edu.bropendoar:2025-06-12T13:32:47Repositório Institucional da INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER)false |
| dc.title.none.fl_str_mv |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| title |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| spellingShingle |
Extração e classificação de licitações do Diário Oficial do Estado de SP Satyro, Vitor classificação de texto reconhecimento óptico de caracteres processamento de imagem optical character recognition text classification image processing Scikit Learn PyTesseract. |
| title_short |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| title_full |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| title_fullStr |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| title_full_unstemmed |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| title_sort |
Extração e classificação de licitações do Diário Oficial do Estado de SP |
| author |
Satyro, Vitor |
| author_facet |
Satyro, Vitor Liu, Vitor Delchiaro, Lucca Schoueri, Guilherme |
| author_role |
author |
| author2 |
Liu, Vitor Delchiaro, Lucca Schoueri, Guilherme |
| author2_role |
author author author |
| dc.contributor.none.fl_str_mv |
Montagner, Igor dos Santos |
| dc.contributor.author.fl_str_mv |
Satyro, Vitor Liu, Vitor Delchiaro, Lucca Schoueri, Guilherme Satyro, Vitor Liu, Vitor Delchiaro, Lucca Schoueri, Guilherme |
| dc.subject.por.fl_str_mv |
classificação de texto reconhecimento óptico de caracteres processamento de imagem optical character recognition text classification image processing Scikit Learn PyTesseract. |
| topic |
classificação de texto reconhecimento óptico de caracteres processamento de imagem optical character recognition text classification image processing Scikit Learn PyTesseract. |
| description |
Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021 2022-07-03T01:25:47Z 2022-07-03T01:25:47Z |
| dc.type.driver.fl_str_mv |
bachelor thesis |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.insper.edu.br/handle/11224/3712 |
| url |
https://repositorio.insper.edu.br/handle/11224/3712 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
29 p. Digital application/pdf |
| dc.coverage.none.fl_str_mv |
Brasil São Paulo |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da INSPER instname:Instituição de Ensino Superior e de Pesquisa (INSPER) instacron:INSPER |
| instname_str |
Instituição de Ensino Superior e de Pesquisa (INSPER) |
| instacron_str |
INSPER |
| institution |
INSPER |
| reponame_str |
Repositório Institucional da INSPER |
| collection |
Repositório Institucional da INSPER |
| repository.name.fl_str_mv |
Repositório Institucional da INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER) |
| repository.mail.fl_str_mv |
biblioteca@insper.edu.br || conteudobiblioteca@insper.edu.br |
| _version_ |
1839074957422755840 |