Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo
dc.contributor.advisor | Silva, Luciano | |
dc.contributor.author | Moraes, Leonardo Mendes de | |
dc.contributor.author | Zezze, Gabriel | |
dc.contributor.author | Queiroz, Thomas | |
dc.contributor.author | Benites, Gustavo Molina Freneda | |
dc.coverage.cidade | São Paulo | pt_BR |
dc.coverage.pais | Brasil | pt_BR |
dc.creator | Moraes, Leonardo Mendes de | |
dc.creator | Zezze, Gabriel | |
dc.creator | Queiroz, Thomas | |
dc.creator | Benites, Gustavo Molina Freneda | |
dc.date.accessioned | 2022-07-03T02:12:46Z | |
dc.date.available | 2022-07-03T02:12:46Z | |
dc.date.issued | 2021 | |
dc.description.abstract | Este projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa. | pt_BR |
dc.description.notes | Projeto realizado para empresa Dell - Mentor na Empresa: Diego Gallo | pt_BR |
dc.description.qualificationlevel | Graduação | pt_BR |
dc.format.extent | 37 p. | pt_BR |
dc.format.medium | Digital | pt_BR |
dc.identifier.uri | https://repositorio.insper.edu.br/handle/11224/3713 | |
dc.language.iso | Português | pt_BR |
dc.rights.license | TODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEM | pt_BR |
dc.subject | classificação de texto | pt_BR |
dc.subject | indexação de documentos | pt_BR |
dc.subject | metodologia scrum | pt_BR |
dc.subject | layout de documentos | pt_BR |
dc.subject | clusterização | pt_BR |
dc.subject | conteinerização | pt_BR |
dc.subject | paralelismo de aplicações | pt_BR |
dc.subject.keywords | logging | pt_BR |
dc.subject.keywords | design pattern | pt_BR |
dc.subject.keywords | topic modelling | pt_BR |
dc.subject.keywords | Layout-Parser | pt_BR |
dc.title | Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo | pt_BR |
dc.type | bachelor thesis | |
dspace.entity.type | Publication | |
local.contributor.boardmember | Silva, Raul Ikeda Gomes da | pt_BR |
local.contributor.boardmember | Vidal, Maciel Calebe | pt_BR |
local.subject.cnpq | Engenharias | pt_BR |
local.type | Trabalho de Conclusão de Curso | pt_BR |