Extração e classificação de licitações do Diário Oficial do Estado de SP

dc.contributor.advisorMontagner, Igor dos Santos
dc.contributor.authorSatyro, Vitor
dc.contributor.authorLiu, Vitor
dc.contributor.authorDelchiaro, Lucca
dc.contributor.authorSchoueri, Guilherme
dc.coverage.cidadeSão Paulopt_BR
dc.coverage.paisBrasilpt_BR
dc.creatorSatyro, Vitor
dc.creatorLiu, Vitor
dc.creatorDelchiaro, Lucca
dc.creatorSchoueri, Guilherme
dc.date.accessioned2022-07-03T01:25:47Z
dc.date.available2022-07-03T01:25:47Z
dc.date.issued2021
dc.description.abstractEste projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.pt_BR
dc.description.notesProjeto realizado para empresa Dell - Mentor na Empresa: Diego Gallopt_BR
dc.description.otherNão informadopt_BR
dc.description.qualificationlevelGraduaçãopt_BR
dc.format.extent29 p.pt_BR
dc.format.mediumDigitalpt_BR
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/3712
dc.language.isoPortuguêspt_BR
dc.rights.licenseTODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEMpt_BR
dc.subjectclassificação de textopt_BR
dc.subjectreconhecimento óptico de caracterespt_BR
dc.subjectprocessamento de imagempt_BR
dc.subject.keywordsoptical character recognitionpt_BR
dc.subject.keywordstext classificationpt_BR
dc.subject.keywordsimage processingpt_BR
dc.subject.keywordsScikit Learnpt_BR
dc.subject.keywordsPyTesseract.pt_BR
dc.titleExtração e classificação de licitações do Diário Oficial do Estado de SPpt_BR
dc.typebachelor thesis
dspace.entity.typePublication
local.contributor.boardmemberVidal, Maciel Calebept_BR
local.contributor.boardmemberFABIO JOSE AYRES
local.subject.cnpqEngenhariaspt_BR
local.typeTrabalho de Conclusão de Cursopt_BR
relation.isBoardMemberOfPublication37971022-7c69-4e93-9186-4c9431a1f95c
relation.isBoardMemberOfPublication.latestForDiscovery37971022-7c69-4e93-9186-4c9431a1f95c

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
DELL_Relatorio_Final_PFE.pdf
Tamanho:
2.29 MB
Formato:
Adobe Portable Document Format
Descrição:
Relatório Final PFE - Dell

Licença do pacote

Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
282 B
Formato:
Item-specific license agreed upon to submission
Descrição: