Modelagem financeira de alta frequência com Big Data e Machine Learning
N/D
Autores
Dias, Felipe Maluli de Carvalho
Martins, Guilherme dos Santos
Pereira, Marlon Silva
Orientador
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2024
Resumo
O objetivo deste projeto é desenvolver uma arquitetura robusta e escalável que atenda às
necessidades específicas do fluxo de dados de cotação intradiária de ativos, para sustentar
modelagem de alta frequência nas estratégias de compra e venda de ações de uma gestora de
investimentos, e então desenvolver um modelo de compra e venda de ações que utilize esses
dados. Para alcançar esses objetivos, o projeto propõe uma infraestrutura composta por
processos de extração, limpeza, e armazenamento de dados, com ênfase na eficiência do
tratamento de grandes volumes de informações. A infraestrutura proposta é baseada em uma
pipeline de dados construída em Python, que inclui etapas de extração e carregamento (EL).
Para o armazenamento dos dados, foi utilizado de início o banco de dados PostgreSQL, que foi
substituído pelo QuestDB, uma escolha motivada pela sua otimização voltada a grandes
volumes de dados de série temporal. A arquitetura, desenvolvida com uma aplicação de
extração e limpeza em Python e integrada a um banco de dados QuestDB, mostrou-se eficaz
para lidar com o volume de dados esperado através de testes de estresse realizados usando
protótipos iniciais do sistema e simulando a fonte de dados, destacando-se pela sua capacidade
de fácil integração com outras ferramentas. Além disso, o projeto contempla o estudo e a
aplicação de diferentes sinais financeiros, utilizando técnicas e métricas quantitativas, além de
modelos de Machine Learning, com o objetivo de avaliar as melhores variáveis para o
desenvolvimento de um modelo de Factor Investing para os dados intradiários.
The objective of this project is to develop a robust and scalable architecture that meets the specific needs of intraday asset price data flow to support high-frequency modeling in the trading strategies of an investment management firm. Additionally, the project aims to develop a trading model that utilizes this data. To achieve these objectives, the project proposes an infrastructure composed of processes for data extraction, cleaning, and storage, with an emphasis on efficiently handling large volumes of information. The proposed infrastructure is based on a data pipeline built in Python, including extraction and loading (EL) stages. Initially, PostgreSQL was used for data storage, but it was later replaced by QuestDB due to its optimization for large volumes of time-series data. The architecture, developed with a Pythonbased extraction and cleaning application integrated with a QuestDB database, proved effective in handling the expected data volume. This was confirmed through stress tests conducted with initial prototypes of the system by simulating the data source, highlighting its ease of integration with other tools. Additionally, the project includes the study and application of various financial signals using quantitative techniques and metrics, as well as Machine Learning models, with the goal of identifying the best variables for developing a Factor Investing model tailored to intraday data.
The objective of this project is to develop a robust and scalable architecture that meets the specific needs of intraday asset price data flow to support high-frequency modeling in the trading strategies of an investment management firm. Additionally, the project aims to develop a trading model that utilizes this data. To achieve these objectives, the project proposes an infrastructure composed of processes for data extraction, cleaning, and storage, with an emphasis on efficiently handling large volumes of information. The proposed infrastructure is based on a data pipeline built in Python, including extraction and loading (EL) stages. Initially, PostgreSQL was used for data storage, but it was later replaced by QuestDB due to its optimization for large volumes of time-series data. The architecture, developed with a Pythonbased extraction and cleaning application integrated with a QuestDB database, proved effective in handling the expected data volume. This was confirmed through stress tests conducted with initial prototypes of the system by simulating the data source, highlighting its ease of integration with other tools. Additionally, the project includes the study and application of various financial signals using quantitative techniques and metrics, as well as Machine Learning models, with the goal of identifying the best variables for developing a Factor Investing model tailored to intraday data.
Palavras-chave
Arquitetura escalável e robusta; fluxo de dados de alta frequência; Pipeline de dados em Python; Extração e carregamento de dados (EL); Banco de dados QuestDB; Sinais financeiros; Factor Investing; Scalable and robust architecture; High-frequency data flow; Python data pipeline; Data extraction and loading (EL); QuestDB database; Financial signals
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Idioma
Português
Notas
Projeto realizado para a empresa DAO Capital - Mentor na empresa: Matteo Iannoni
Membros da banca
Área do Conhecimento CNPQ
ENGENHARIAS
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO