Extração e classificação de licitações do Diário Oficial do Estado de SP

Imagem de Miniatura

Autores

Satyro, Vitor
Liu, Vitor
Delchiaro, Lucca
Schoueri, Guilherme

Orientador

Montagner, Igor dos Santos

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2021

Unidades Organizacionais

Resumo

Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.

Palavras-chave

classificação de texto; reconhecimento óptico de caracteres; processamento de imagem

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Idioma

Português

Notas

Membros da banca

Vidal, Maciel Calebe

Área do Conhecimento CNPQ

Engenharias

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por