Publication: Extração e classificação de licitações do Diário Oficial do Estado de SP
Authors
Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
relationships.isAdvisorOf
Montagner, Igor dos Santos
relationships.isCoadvisorOf
item.page.citationsscopus
Type
Trabalho de Conclusão de Curso
Date
2021
Abstract
Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada
de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de
licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de
categorizar e resumir informações de grande quantidade de documentos, sendo também um
produto customizável às necessidades específicas da DELL. De acordo com o cliente, a
aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos
documentos, separação de seções de documentos, identificador de licitações e mecanismo de
busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi
necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento
óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um
banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos
textos do diário oficial e identificação de licitações, todos os módulos da ferramenta
apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a
extração de textos de arquivos pdf e classificação com random forest.
Keywords
classificação de texto; reconhecimento óptico de caracteres; processamento de imagem
Journal Title
item.page.sourceUri
Book's title
item.page.scopusurl
Main language
Português
Notes
Examination board
Vidal, Maciel Calebe
Subject Area - CNPq Classification
Engenharias