Arquitetura em Cloud da pipeline de ETL (extract, transform, load) de dados financeiros

Carregando...
Imagem de Miniatura
Orientador
Vidal, Maciel Calebe
Co-orientadores
Citações na Scopus
Tipo de documento
Data
2023
Título da Revista
ISSN da Revista
Título do Volume
Projetos de Pesquisa
Unidades Organizacionais
Fascículo
Resumo
Este projeto tem como objetivo desenvolver uma infraestrutura para a execução de pipelines de ingestão e transformação de dados, com intuito de elaborar uma base contendo métricas do mercado financeiro utilizadas pela empresa a fim de organizar portfólios de investimentos de forma sistemática. Essa infraestrutura deve atender alguns requisitos mínimos como: modularidade, escalabilidade, resiliência e um elevado grau de automação, atentando-se às restrições orçamentárias. Além disso, ela deve ser flexível à ponto de permitir à empresa fazer adaptações com facilidade e reconstruí-la, em caso de falha crítica. A solução proposta consiste em duas arquiteturas: híbrida e pública, para providenciar o orquestrador e executar as tarefas de processamento isoladamente. Por meio de uma infraestrutura como código, elas podem ser construídas, destruídas ou adaptadas para qualquer provedor. Elas exploram as qualidades do Apache Airflow e de diferentes recursos da nuvem para garantir qualidade dos dados, resiliência, escalabilidade e redução de custos, além de automatizar todo processo de entrega de novas atualizações. Para orientar a decisão da empresa sobre qual infraestrutura utilizar, foram realizados alguns testes com cenários próximos aos enfrentados pela empresa, a fim de se extrair métricas de desempenho e estimar custos.

This project aims to develop an infrastructure for the execution of data ingestion and transformation pipelines, with the purpose of creating a foundation containing financial market metrics used by the company to systematically organize investment portfolios. This infrastructure must meet some minimum requirements such as modularity, scalability, resilience, and a high degree of automation, taking into account budget constraints. Additionally, it should be flexible enough to allow the company to make adaptations easily and reconstruct it in case of critical failure. The proposed solution consists of two architectures: hybrid and public, to provide the orchestrator and execute processing tasks independently. Through infrastructure as code, they can be built, destroyed, or adapted for any provider. They leverage the qualities of Apache Airflow and different cloud resources to ensure data quality, resilience, scalability, and cost reduction, as well as automate the entire process of delivering new updates. To guide the company's decision on which infrastructure to use, some tests were conducted with scenarios similar to those faced by the company, in order to extract performance metrics and estimate costs.

Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Idioma
pt
Notas
Projeto realizado para a empresa DAO Capital - Mentor na empresa: Caio Lacerda de Castro
Membros da banca
Silva, Raul Ikeda Gomes da
Avelino, Rodolfo da Silva
Área do Conhecimento CNPQ
ENGENHARIAS
Citação