Reconhecimento e extração de textos de diários oficiais do Estado de São Paulo

dc.contributor.advisorSilva, Luciano
dc.contributor.authorMoraes, Leonardo Mendes de
dc.contributor.authorZezze, Gabriel
dc.contributor.authorQueiroz, Thomas
dc.contributor.authorBenites, Gustavo Molina Freneda
dc.coverage.cidadeSão Paulopt_BR
dc.coverage.paisBrasilpt_BR
dc.creatorMoraes, Leonardo Mendes de
dc.creatorZezze, Gabriel
dc.creatorQueiroz, Thomas
dc.creatorBenites, Gustavo Molina Freneda
dc.date.accessioned2022-07-03T02:12:46Z
dc.date.available2022-07-03T02:12:46Z
dc.date.issued2021
dc.description.abstractEste projeto tem como objetivo iterar e explorar melhorias para o projeto já existente da extração e indexação de documentos do Diário Oficial de São Paulo, proporcionado pela Dell Technologies. A ferramenta inicialmente é capaz de identificar licitações e indexá-las de forma simples, com propósito de facilitar e automatizar a busca por informações que muitas vezes pode ser exaustiva. A metodologia utilizada foi scrum com sprints com duração de uma semana, as issues eram definidas no início da sprint, os membros do grupo rotacionam a cada sprint para serem o scrum master. A refatoração do código fonte reduziu o número de bugs nos sistemas operacionais utilizados e proporcionou maior facilidade para implementar novas features, a paralelização do uma área do programa resultou numa queda considerável de tempo de execução do mesmo, a implementação de logging e refatoração do client melhorou a legibilidade e uso do programa. Em relação ao modelo de identificação de licitações, implementações utilizando topic modelling não supervisionado foram feitas. Novas bibliotecas de análise de layout de documentos como Layout-Parser foram utilizadas para aperfeiçoar o segmentador de textos inicial. Docker e Docker Swarm foram utilizados como introdução à escalabilidade do programa.pt_BR
dc.description.notesProjeto realizado para empresa Dell - Mentor na Empresa: Diego Gallopt_BR
dc.description.qualificationlevelGraduaçãopt_BR
dc.format.extent37 p.pt_BR
dc.format.mediumDigitalpt_BR
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/3713
dc.language.isoPortuguêspt_BR
dc.rights.licenseTODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEMpt_BR
dc.subjectclassificação de textopt_BR
dc.subjectindexação de documentospt_BR
dc.subjectmetodologia scrumpt_BR
dc.subjectlayout de documentospt_BR
dc.subjectclusterizaçãopt_BR
dc.subjectconteinerizaçãopt_BR
dc.subjectparalelismo de aplicaçõespt_BR
dc.subject.keywordsloggingpt_BR
dc.subject.keywordsdesign patternpt_BR
dc.subject.keywordstopic modellingpt_BR
dc.subject.keywordsLayout-Parserpt_BR
dc.titleReconhecimento e extração de textos de diários oficiais do Estado de São Paulopt_BR
dc.typebachelor thesis
dspace.entity.typePublication
local.contributor.boardmemberSilva, Raul Ikeda Gomes dapt_BR
local.contributor.boardmemberVidal, Maciel Calebept_BR
local.subject.cnpqEngenhariaspt_BR
local.typeTrabalho de Conclusão de Cursopt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
DELL 2_Relatorio_Final_PFE.pdf
Tamanho:
9.44 MB
Formato:
Adobe Portable Document Format
Descrição:
Relatório Final PFE - Dell 2

Licença do pacote

Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
282 B
Formato:
Item-specific license agreed upon to submission
Descrição: