Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

Imagem de Miniatura

Autores

Moraes, Leonardo Mendes de
Zezze, Gabriel
Queiroz, Thomas
Benites, Gustavo Molina Freneda

Orientador

Silva, Luciano

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2021

Unidades Organizacionais

Resumo

Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.

Palavras-chave

classificação de texto; indexação de documentos; metodologia scrum; layout de documentos; clusterização; conteinerização; paralelismo de aplicações

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Idioma

Português

Notas

Membros da banca

Silva, Raul Ikeda Gomes da
Vidal, Maciel Calebe

Área do Conhecimento CNPQ

Engenharias

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por