Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

Moraes, Leonardo Mendes de; Zezze, Gabriel; Queiroz, Thomas; Benites, Gustavo Molina Freneda

Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

Autores

Moraes, Leonardo Mendes de

Zezze, Gabriel

Queiroz, Thomas

Benites, Gustavo Molina Freneda

Orientador

Silva, Luciano

Tipo de documento

Trabalho de Conclusão de Curso

Data

2021

Arquivos

DELL 2_Relatorio_Final_PFE.pdf (9.44 MB)

Resumo

Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.

Palavras-chave

classificação de texto; indexação de documentos; metodologia scrum; layout de documentos; clusterização; conteinerização; paralelismo de aplicações

Idioma

Português

URI

https://repositorio.insper.edu.br/handle/11224/3713

Membros da banca

Silva, Raul Ikeda Gomes da

Vidal, Maciel Calebe

Área do Conhecimento CNPQ

Engenharias

Coleções

Graduações em Engenharias e Ciência da Computação

Página do item completo