Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo
Autores
Moraes, Leonardo Mendes de
Zezze, Gabriel
Queiroz, Thomas
Benites, Gustavo Molina Freneda
Orientador
Silva, Luciano
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2021
Resumo
Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente
da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela
Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de
forma simples, com propósito de facilitar e automatizar a busca por informações que muitas
vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma
semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada
sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs
nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas
features, a paralelização do uma área do programa resultou numa queda considerável de
tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a
legibilidade e uso do programa. Em relação ao modelo de identificação de licitações,
implementações utilizando topic modelling não supervisionado foram feitas. Novas
bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para
aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como
introdução à escalabilidade do programa.
Palavras-chave
classificação de texto; indexação de documentos; metodologia scrum; layout de documentos; clusterização; conteinerização; paralelismo de aplicações
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Idioma
Português
Notas
Membros da banca
Silva, Raul Ikeda Gomes da
Vidal, Maciel Calebe
Área do Conhecimento CNPQ
Engenharias