Graduações em Engenharias e Ciência da Computação

URI permanente para esta coleçãohttps://repositorio.insper.edu.br/handle/11224/3249

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 2 de 2
  • Imagem de Miniatura
    Trabalho de Conclusão de Curso
    Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo
    (2021) Moraes, Leonardo Mendes de; Zezze, Gabriel; Queiroz, Thomas; Benites, Gustavo Molina Freneda
    Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.
  • Imagem de Miniatura
    Trabalho de Conclusão de Curso
    Extração e classificação de licitações do Diário Oficial do Estado de SP
    (2021) Satyro, Vitor; Liu, Vitor; Delchiaro, Lucca; Schoueri, Guilherme
    Este projeto tem como objetivo o desenvolvimento de uma ferramenta modularizada de extração dos documentos do Diário Oficial do estado de São Paulo e identificação de licitações. Essa ferramenta é a base para um desenvolvimento de um produto capaz de categorizar e resumir informações de grande quantidade de documentos, sendo também um produto customizável às necessidades específicas da DELL. De acordo com o cliente, a aplicação precisa de módulos de coleta de dados (scraper), identificação de textos dos documentos, separação de seções de documentos, identificador de licitações e mecanismo de busca entre licitações, sendo todos esses módulos adaptáveis à demanda. Para isso, foi necessário estudar tecnologias como: scrapper, tratamento de imagens, reconhecimento óptico de caracteres, modelos de classificação, mecanismos de buscas e utilização de um banco de dados não relacional. Dado que a principal demanda do cliente é o tratamento dos textos do diário oficial e identificação de licitações, todos os módulos da ferramenta apresentaram-se eficazes no que diz respeito ao tempo esperado e da saída obtida, incluindo a extração de textos de arquivos pdf e classificação com random forest.