Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

Carregando...
Imagem de Miniatura
Orientador
Silva, Luciano
Co-orientadores
Tipo de documento
Trabalho de Conclusão de Curso
Data
2021
Título da Revista
ISSN da Revista
Título do Volume
Projetos de Pesquisa
Unidades Organizacionais
Fascículo
Resumo
Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.

Titulo de periódico
Título de Livro
Idioma
Português
Notas
Membros da banca
Silva, Raul Ikeda Gomes da
Vidal, Maciel Calebe
Área do Conhecimento CNPQ
Engenharias
Citação