Publication:
Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

Thumbnail Image

Authors

Moraes, Leonardo Mendes de
Zezze, Gabriel
Queiroz, Thomas
Benites, Gustavo Molina Freneda

relationships.isAdvisorOf

Silva, Luciano

relationships.isCoadvisorOf

item.page.citationsscopus

Type

Trabalho de Conclusão de Curso

Date

2021

Organizational Units

Abstract

Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.

Keywords

classificação de texto; indexação de documentos; metodologia scrum; layout de documentos; clusterização; conteinerização; paralelismo de aplicações

Journal Title

item.page.sourceUri

Book's title

item.page.scopusurl

Main language

Português

Notes

Examination board

Silva, Raul Ikeda Gomes da
Vidal, Maciel Calebe

Subject Area - CNPq Classification

Engenharias

Citation

Endorsement

Review

Supplemented By

Referenced By