Arquitetura em Cloud da pipeline de ETL (extract, transform, load) de dados financeiros

dc.contributor.advisorVidal, Maciel Calebe
dc.contributor.authorChieppe, Arthur Gomes
dc.contributor.authorRosada, Guilherme
dc.contributor.authorBorges, Gustavo Marques
dc.contributor.authorEller, Vinicius Grando
dc.creatorChieppe, Arthur Gomes
dc.creatorRosada, Guilherme
dc.creatorBorges, Gustavo Marques
dc.creatorEller, Vinicius Grando
dc.date.accessioned2024-06-10T14:06:06Z
dc.date.available2024-06-10T14:06:06Z
dc.date.issued2023
dc.descriptionProjeto realizado para a empresa DAO Capital - Mentor na empresa: Caio Lacerda de Castro
dc.description.abstractEste projeto tem como objetivo desenvolver uma infraestrutura para a execução de pipelines de ingestão e transformação de dados, com intuito de elaborar uma base contendo métricas do mercado financeiro utilizadas pela empresa a fim de organizar portfólios de investimentos de forma sistemática. Essa infraestrutura deve atender alguns requisitos mínimos como: modularidade, escalabilidade, resiliência e um elevado grau de automação, atentando-se às restrições orçamentárias. Além disso, ela deve ser flexível à ponto de permitir à empresa fazer adaptações com facilidade e reconstruí-la, em caso de falha crítica. A solução proposta consiste em duas arquiteturas: híbrida e pública, para providenciar o orquestrador e executar as tarefas de processamento isoladamente. Por meio de uma infraestrutura como código, elas podem ser construídas, destruídas ou adaptadas para qualquer provedor. Elas exploram as qualidades do Apache Airflow e de diferentes recursos da nuvem para garantir qualidade dos dados, resiliência, escalabilidade e redução de custos, além de automatizar todo processo de entrega de novas atualizações. Para orientar a decisão da empresa sobre qual infraestrutura utilizar, foram realizados alguns testes com cenários próximos aos enfrentados pela empresa, a fim de se extrair métricas de desempenho e estimar custos.pt
dc.description.abstractThis project aims to develop an infrastructure for the execution of data ingestion and transformation pipelines, with the purpose of creating a foundation containing financial market metrics used by the company to systematically organize investment portfolios. This infrastructure must meet some minimum requirements such as modularity, scalability, resilience, and a high degree of automation, taking into account budget constraints. Additionally, it should be flexible enough to allow the company to make adaptations easily and reconstruct it in case of critical failure. The proposed solution consists of two architectures: hybrid and public, to provide the orchestrator and execute processing tasks independently. Through infrastructure as code, they can be built, destroyed, or adapted for any provider. They leverage the qualities of Apache Airflow and different cloud resources to ensure data quality, resilience, scalability, and cost reduction, as well as automate the entire process of delivering new updates. To guide the company's decision on which infrastructure to use, some tests were conducted with scenarios similar to those faced by the company, in order to extract performance metrics and estimate costs.en
dc.formatDigital
dc.format.extent68 p.
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/6689
dc.language.isopt
dc.subjectcomputação distribuídapt
dc.subjectfluxo de dadospt
dc.subjectcomputação em nuvempt
dc.subjectorquestramento de tarefaspt
dc.subjectinvestimento sistemáticopt
dc.subjectdistributed computingen
dc.subjectdata flowen
dc.subjectcloud computingen
dc.subjecttask orchestrationen
dc.subjectsystematic investmenten
dc.titleArquitetura em Cloud da pipeline de ETL (extract, transform, load) de dados financeiros
dc.title.alternativeCloud architecture for a financial data ETL pipeline (extract, transform, load)en
dspace.entity.typePublication
local.contributor.boardmemberSilva, Raul Ikeda Gomes da
local.contributor.boardmemberAvelino, Rodolfo da Silva
local.subject.cnpqENGENHARIAS
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Relatorio_Publico_Grupo_DAO_2023.pdf
Tamanho:
4.79 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
236 B
Formato:
Item-specific license agreed upon to submission
Descrição: