Extração e classificação de licitações do Diário Oficial do Estado de SP
Autores
Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme
Orientador
Montagner, Igor dos Santos
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2021
Resumo
Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada
de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de
licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de
categorizar e resumir informações de grande quantidade de documentos, sendo também um
produto customizável às necessidades específicas da DELL. De acordo com o cliente, a
aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos
documentos, separação de seções de documentos, identificador de licitações e mecanismo de
busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi
necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento
óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um
banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos
textos do diário oficial e identificação de licitações, todos os módulos da ferramenta
apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a
extração de textos de arquivos pdf e classificação com random forest.
Palavras-chave
classificação de texto; reconhecimento óptico de caracteres; processamento de imagem
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Idioma
Português
Notas
Membros da banca
Vidal, Maciel Calebe
Área do Conhecimento CNPQ
Engenharias