Graduações em Engenharias e Ciência da Computação

URI permanente para esta coleçãohttps://repositorio.insper.edu.br/handle/11224/3249

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 1 de 1
  • Imagem de Miniatura
    Trabalho de Conclusão de Curso
    Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo
    (2021) Moraes, Leonardo Mendes de; Zezze, Gabriel; Queiroz, Thomas; Benites, Gustavo Molina Freneda
    Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.