Santana, André Luiz MacielAssunção, João Vitor Oliveira2025-10-132025https://repositorio.insper.edu.br/handle/11224/8070Este relatório apresenta o processo de modelagem estatística do desempenho de jogadores de futebol, com o objetivo de identificar e quantificar as principais métricas que influenciam nas classificações numéricas atribuídas aos desempenhos de atletas em partidas oficiais, conhecidas como ratings. Embora plataformas como o SofaScore sejam consolidadas na atribuição de notas ao desempenho de jogadores (ratings), não há transparência no processo de atribuição dos ratings. Esta pesquisa se propõe a identificar os atributos estatísticos mais relevantes para descrever o desempenho de atletas por posição, construindo modelos capazes de transformar métricas individuais em um índice quantitativo de avaliação (rating). Para alcançar esse objetivo, foram extraídos dados da plataforma SofaScore, seguindo as etapas de coleta automática via API, tratamento dos dados, estudo das métricas disponíveis, exclusão de métricas redundantes e agrupamento dos dados de acordo com a função tática exercida pelo atleta. A metodologia consistiu em estruturar o conjunto de dados em quatro segmentações, sendo goleiros, defensores, meio-campistas e atacantes, aplicar o método de regressão linear múltipla e analisar os resultados a fim de identificar as métricas de maior relevância por posição e os seus respectivos coeficientes de impacto. O modelo foi avaliado considerando o desempenho em prever os rating de dois atletas por posição, garantindo a diversidade de estilos de jogo, características físicas, ligas de atuação e origem dos atletas, com análise de métricas como o R², que mede a capacidade explicativa do modelo, e da raiz do erro quadrático médio (RMSE). Os resultados indicam que métricas de natureza ofensiva, como gols, assistências, chutes no gol, finalizações na trave e cobranças de pênaltis convertidas impactam positivamente no rating, enquanto métricas de natureza defensiva não contribuem com a mesma relevância. Os resultados reforçam a importância de contextualizar os dados com base no enredo da partida e na função desempenhada pelo atletaThis report presents the statistical modeling process for soccer player performance, aiming to identify and quantify the key metrics that influence the numerical classifications assigned to athletes' performances in official matches, known as ratings. Although platforms like SofaScore are well-established in assigning ratings to player performance (ratings), the rating process lacks transparency. This research aims to identify the most relevant statistical attributes for describing athlete performance by position, building models capable of transforming individual metrics into a quantitative evaluation index (rating). To achieve this goal, data was extracted from the SofaScore platform, following the steps of automatic collection via API, data processing, analysis of available metrics, exclusion of redundant metrics, and grouping of data according to the tactical role played by the athlete. The methodology consisted of structuring the dataset into four segments: goalkeepers, defenders, midfielders, and attackers. It applied multiple linear regression and analyzed the results to identify the most relevant metrics by position and their respective impact coefficients. The model was evaluated based on its performance in predicting the ratings of two players per position, ensuring diversity in playing styles, physical characteristics, leagues, and player origins. It also analyzed metrics such as R², which measures the model's explanatory power, and the root-mean-square error (RMSE). The results indicate that offensive metrics such as goals, assists, shots on target, shots on goal, and penalty kicks converted have a positive impact on ratings, while defensive metrics do not contribute as significantly. The results reinforce the importance of contextualizing the data based on the match's storyline and the player's role.Digital36 p.PortuguêsAnálise de desempenhoFutebolCiência de dadosRegressão linearMétricas esportivasPerformance analysisSoccerData scienceinear regressionSports metricsAnálise e Modelagem Estatística de Métricas de Desempenho no Futebol: Seleção de AtributosChave por Posiçãoreport