Modelagem financeira de alta frequência com Big Data e Machine Learning

N/D

Autores

Dias, Felipe Maluli de Carvalho
Martins, Guilherme dos Santos
Pereira, Marlon Silva

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2024

Unidades Organizacionais

Resumo

O objetivo deste projeto é desenvolver uma arquitetura robusta e escalável que atenda às necessidades específicas do fluxo de dados de cotação intradiária de ativos, para sustentar modelagem de alta frequência nas estratégias de compra e venda de ações de uma gestora de investimentos, e então desenvolver um modelo de compra e venda de ações que utilize esses dados. Para alcançar esses objetivos, o projeto propõe uma infraestrutura composta por processos de extração, limpeza, e armazenamento de dados, com ênfase na eficiência do tratamento de grandes volumes de informações. A infraestrutura proposta é baseada em uma pipeline de dados construída em Python, que inclui etapas de extração e carregamento (EL). Para o armazenamento dos dados, foi utilizado de início o banco de dados PostgreSQL, que foi substituído pelo QuestDB, uma escolha motivada pela sua otimização voltada a grandes volumes de dados de série temporal. A arquitetura, desenvolvida com uma aplicação de extração e limpeza em Python e integrada a um banco de dados QuestDB, mostrou-se eficaz para lidar com o volume de dados esperado através de testes de estresse realizados usando protótipos iniciais do sistema e simulando a fonte de dados, destacando-se pela sua capacidade de fácil integração com outras ferramentas. Além disso, o projeto contempla o estudo e a aplicação de diferentes sinais financeiros, utilizando técnicas e métricas quantitativas, além de modelos de Machine Learning, com o objetivo de avaliar as melhores variáveis para o desenvolvimento de um modelo de Factor Investing para os dados intradiários.

The objective of this project is to develop a robust and scalable architecture that meets the specific needs of intraday asset price data flow to support high-frequency modeling in the trading strategies of an investment management firm. Additionally, the project aims to develop a trading model that utilizes this data. To achieve these objectives, the project proposes an infrastructure composed of processes for data extraction, cleaning, and storage, with an emphasis on efficiently handling large volumes of information. The proposed infrastructure is based on a data pipeline built in Python, including extraction and loading (EL) stages. Initially, PostgreSQL was used for data storage, but it was later replaced by QuestDB due to its optimization for large volumes of time-series data. The architecture, developed with a Pythonbased extraction and cleaning application integrated with a QuestDB database, proved effective in handling the expected data volume. This was confirmed through stress tests conducted with initial prototypes of the system by simulating the data source, highlighting its ease of integration with other tools. Additionally, the project includes the study and application of various financial signals using quantitative techniques and metrics, as well as Machine Learning models, with the goal of identifying the best variables for developing a Factor Investing model tailored to intraday data.

Palavras-chave

Arquitetura escalável e robusta; fluxo de dados de alta frequência; Pipeline de dados em Python; Extração e carregamento de dados (EL); Banco de dados QuestDB; Sinais financeiros; Factor Investing; Scalable and robust architecture; High-frequency data flow; Python data pipeline; Data extraction and loading (EL); QuestDB database; Financial signals

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Idioma

Português

Notas

Projeto realizado para a empresa DAO Capital - Mentor na empresa: Matteo Iannoni

Área do Conhecimento CNPQ

ENGENHARIAS

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por