Extração e classificação de licitações do Diário Oficial do Estado de SP
dc.contributor.advisor | Montagner, Igor dos Santos | |
dc.contributor.author | Satyro, Vitor | |
dc.contributor.author | Liu, Vitor | |
dc.contributor.author | Delchiaro, Lucca | |
dc.contributor.author | Schoueri, Guilherme | |
dc.coverage.cidade | São Paulo | pt_BR |
dc.coverage.pais | Brasil | pt_BR |
dc.creator | Satyro, Vitor | |
dc.creator | Liu, Vitor | |
dc.creator | Delchiaro, Lucca | |
dc.creator | Schoueri, Guilherme | |
dc.date.accessioned | 2022-07-03T01:25:47Z | |
dc.date.available | 2022-07-03T01:25:47Z | |
dc.date.issued | 2021 | |
dc.description.abstract | Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest. | pt_BR |
dc.description.notes | Projeto realizado para empresa Dell - Mentor na Empresa: Diego Gallo | pt_BR |
dc.description.other | Não informado | pt_BR |
dc.description.qualificationlevel | Graduação | pt_BR |
dc.format.extent | 29 p. | pt_BR |
dc.format.medium | Digital | pt_BR |
dc.identifier.uri | https://repositorio.insper.edu.br/handle/11224/3712 | |
dc.language.iso | Português | pt_BR |
dc.rights.license | TODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEM | pt_BR |
dc.subject | classificação de texto | pt_BR |
dc.subject | reconhecimento óptico de caracteres | pt_BR |
dc.subject | processamento de imagem | pt_BR |
dc.subject.keywords | optical character recognition | pt_BR |
dc.subject.keywords | text classification | pt_BR |
dc.subject.keywords | image processing | pt_BR |
dc.subject.keywords | Scikit Learn | pt_BR |
dc.subject.keywords | PyTesseract. | pt_BR |
dc.title | Extração e classificação de licitações do Diário Oficial do Estado de SP | pt_BR |
dc.type | bachelor thesis | |
dspace.entity.type | Publication | |
local.contributor.boardmember | Vidal, Maciel Calebe | pt_BR |
local.contributor.boardmember | FABIO JOSE AYRES | |
local.subject.cnpq | Engenharias | pt_BR |
local.type | Trabalho de Conclusão de Curso | pt_BR |
relation.isBoardMemberOfPublication | 37971022-7c69-4e93-9186-4c9431a1f95c | |
relation.isBoardMemberOfPublication.latestForDiscovery | 37971022-7c69-4e93-9186-4c9431a1f95c |