MACIEL CALEBE VIDALDias, Felipe Maluli de CarvalhoMartins, Guilherme dos SantosPereira, Marlon Silva2025-04-092024https://repositorio.insper.edu.br/handle/11224/7557Projeto realizado para a empresa DAO Capital - Mentor na empresa: Matteo IannoniO objetivo deste projeto é desenvolver uma arquitetura robusta e escalável que atenda às necessidades específicas do fluxo de dados de cotação intradiária de ativos, para sustentar modelagem de alta frequência nas estratégias de compra e venda de ações de uma gestora de investimentos, e então desenvolver um modelo de compra e venda de ações que utilize esses dados. Para alcançar esses objetivos, o projeto propõe uma infraestrutura composta por processos de extração, limpeza, e armazenamento de dados, com ênfase na eficiência do tratamento de grandes volumes de informações. A infraestrutura proposta é baseada em uma pipeline de dados construída em Python, que inclui etapas de extração e carregamento (EL). Para o armazenamento dos dados, foi utilizado de início o banco de dados PostgreSQL, que foi substituído pelo QuestDB, uma escolha motivada pela sua otimização voltada a grandes volumes de dados de série temporal. A arquitetura, desenvolvida com uma aplicação de extração e limpeza em Python e integrada a um banco de dados QuestDB, mostrou-se eficaz para lidar com o volume de dados esperado através de testes de estresse realizados usando protótipos iniciais do sistema e simulando a fonte de dados, destacando-se pela sua capacidade de fácil integração com outras ferramentas. Além disso, o projeto contempla o estudo e a aplicação de diferentes sinais financeiros, utilizando técnicas e métricas quantitativas, além de modelos de Machine Learning, com o objetivo de avaliar as melhores variáveis para o desenvolvimento de um modelo de Factor Investing para os dados intradiários.The objective of this project is to develop a robust and scalable architecture that meets the specific needs of intraday asset price data flow to support high-frequency modeling in the trading strategies of an investment management firm. Additionally, the project aims to develop a trading model that utilizes this data. To achieve these objectives, the project proposes an infrastructure composed of processes for data extraction, cleaning, and storage, with an emphasis on efficiently handling large volumes of information. The proposed infrastructure is based on a data pipeline built in Python, including extraction and loading (EL) stages. Initially, PostgreSQL was used for data storage, but it was later replaced by QuestDB due to its optimization for large volumes of time-series data. The architecture, developed with a Pythonbased extraction and cleaning application integrated with a QuestDB database, proved effective in handling the expected data volume. This was confirmed through stress tests conducted with initial prototypes of the system by simulating the data source, highlighting its ease of integration with other tools. Additionally, the project includes the study and application of various financial signals using quantitative techniques and metrics, as well as Machine Learning models, with the goal of identifying the best variables for developing a Factor Investing model tailored to intraday data.Digital72 p.PortuguêsArquitetura escalável e robustafluxo de dados de alta frequênciaPipeline de dados em PythonExtração e carregamento de dados (EL)Banco de dados QuestDBSinais financeirosFactor InvestingScalable and robust architectureHigh-frequency data flowPython data pipelineData extraction and loading (EL)QuestDB databaseFinancial signalsModelagem financeira de alta frequência com Big Data e Machine LearningHigh-frequency financial modeling with Big Data and Machine Learningbachelor thesis