Arquitetura em Cloud da pipeline de ETL (extract, transform, load) de dados financeiros
dc.contributor.advisor | Vidal, Maciel Calebe | |
dc.contributor.author | Chieppe, Arthur Gomes | |
dc.contributor.author | Rosada, Guilherme | |
dc.contributor.author | Borges, Gustavo Marques | |
dc.contributor.author | Eller, Vinicius Grando | |
dc.creator | Chieppe, Arthur Gomes | |
dc.creator | Rosada, Guilherme | |
dc.creator | Borges, Gustavo Marques | |
dc.creator | Eller, Vinicius Grando | |
dc.date.accessioned | 2024-06-10T14:06:06Z | |
dc.date.available | 2024-06-10T14:06:06Z | |
dc.date.issued | 2023 | |
dc.description | Projeto realizado para a empresa DAO Capital - Mentor na empresa: Caio Lacerda de Castro | |
dc.description.abstract | Este projeto tem como objetivo desenvolver uma infraestrutura para a execução de pipelines de ingestão e transformação de dados, com intuito de elaborar uma base contendo métricas do mercado financeiro utilizadas pela empresa a fim de organizar portfólios de investimentos de forma sistemática. Essa infraestrutura deve atender alguns requisitos mínimos como: modularidade, escalabilidade, resiliência e um elevado grau de automação, atentando-se às restrições orçamentárias. Além disso, ela deve ser flexível à ponto de permitir à empresa fazer adaptações com facilidade e reconstruí-la, em caso de falha crítica. A solução proposta consiste em duas arquiteturas: híbrida e pública, para providenciar o orquestrador e executar as tarefas de processamento isoladamente. Por meio de uma infraestrutura como código, elas podem ser construídas, destruídas ou adaptadas para qualquer provedor. Elas exploram as qualidades do Apache Airflow e de diferentes recursos da nuvem para garantir qualidade dos dados, resiliência, escalabilidade e redução de custos, além de automatizar todo processo de entrega de novas atualizações. Para orientar a decisão da empresa sobre qual infraestrutura utilizar, foram realizados alguns testes com cenários próximos aos enfrentados pela empresa, a fim de se extrair métricas de desempenho e estimar custos. | pt |
dc.description.abstract | This project aims to develop an infrastructure for the execution of data ingestion and transformation pipelines, with the purpose of creating a foundation containing financial market metrics used by the company to systematically organize investment portfolios. This infrastructure must meet some minimum requirements such as modularity, scalability, resilience, and a high degree of automation, taking into account budget constraints. Additionally, it should be flexible enough to allow the company to make adaptations easily and reconstruct it in case of critical failure. The proposed solution consists of two architectures: hybrid and public, to provide the orchestrator and execute processing tasks independently. Through infrastructure as code, they can be built, destroyed, or adapted for any provider. They leverage the qualities of Apache Airflow and different cloud resources to ensure data quality, resilience, scalability, and cost reduction, as well as automate the entire process of delivering new updates. To guide the company's decision on which infrastructure to use, some tests were conducted with scenarios similar to those faced by the company, in order to extract performance metrics and estimate costs. | en |
dc.format | Digital | |
dc.format.extent | 68 p. | |
dc.identifier.uri | https://repositorio.insper.edu.br/handle/11224/6689 | |
dc.language.iso | pt | |
dc.subject | computação distribuída | pt |
dc.subject | fluxo de dados | pt |
dc.subject | computação em nuvem | pt |
dc.subject | orquestramento de tarefas | pt |
dc.subject | investimento sistemático | pt |
dc.subject | distributed computing | en |
dc.subject | data flow | en |
dc.subject | cloud computing | en |
dc.subject | task orchestration | en |
dc.subject | systematic investment | en |
dc.title | Arquitetura em Cloud da pipeline de ETL (extract, transform, load) de dados financeiros | |
dc.title.alternative | Cloud architecture for a financial data ETL pipeline (extract, transform, load) | en |
dspace.entity.type | Publication | |
local.contributor.boardmember | Silva, Raul Ikeda Gomes da | |
local.contributor.boardmember | Avelino, Rodolfo da Silva | |
local.subject.cnpq | ENGENHARIAS |