Análise e Modelagem Estatística de Métricas de Desempenho no Futebol: Seleção de AtributosChave por Posição
N/D
Autores
Assunção, João Vitor Oliveira
Orientador
Santana, André Luiz Maciel
Co-orientadores
Citações na Scopus
Tipo de documento
Relatório de Iniciação Tecnológica
Data
2025
Resumo
Este relatório apresenta o processo de modelagem estatística do desempenho de
jogadores de futebol, com o objetivo de identificar e quantificar as principais métricas
que influenciam nas classificações numéricas atribuídas aos desempenhos de atletas
em partidas oficiais, conhecidas como ratings. Embora plataformas como o SofaScore
sejam consolidadas na atribuição de notas ao desempenho de jogadores (ratings),
não há transparência no processo de atribuição dos ratings. Esta pesquisa se propõe
a identificar os atributos estatísticos mais relevantes para descrever o desempenho
de atletas por posição, construindo modelos capazes de transformar métricas
individuais em um índice quantitativo de avaliação (rating). Para alcançar esse
objetivo, foram extraídos dados da plataforma SofaScore, seguindo as etapas de
coleta automática via API, tratamento dos dados, estudo das métricas disponíveis,
exclusão de métricas redundantes e agrupamento dos dados de acordo com a função
tática exercida pelo atleta. A metodologia consistiu em estruturar o conjunto de dados
em quatro segmentações, sendo goleiros, defensores, meio-campistas e atacantes,
aplicar o método de regressão linear múltipla e analisar os resultados a fim de
identificar as métricas de maior relevância por posição e os seus respectivos
coeficientes de impacto. O modelo foi avaliado considerando o desempenho em
prever os rating de dois atletas por posição, garantindo a diversidade de estilos de
jogo, características físicas, ligas de atuação e origem dos atletas, com análise de
métricas como o R², que mede a capacidade explicativa do modelo, e da raiz do erro
quadrático médio (RMSE). Os resultados indicam que métricas de natureza ofensiva,
como gols, assistências, chutes no gol, finalizações na trave e cobranças de pênaltis
convertidas impactam positivamente no rating, enquanto métricas de natureza
defensiva não contribuem com a mesma relevância. Os resultados reforçam a
importância de contextualizar os dados com base no enredo da partida e na função
desempenhada pelo atleta
This report presents the statistical modeling process for soccer player performance, aiming to identify and quantify the key metrics that influence the numerical classifications assigned to athletes' performances in official matches, known as ratings. Although platforms like SofaScore are well-established in assigning ratings to player performance (ratings), the rating process lacks transparency. This research aims to identify the most relevant statistical attributes for describing athlete performance by position, building models capable of transforming individual metrics into a quantitative evaluation index (rating). To achieve this goal, data was extracted from the SofaScore platform, following the steps of automatic collection via API, data processing, analysis of available metrics, exclusion of redundant metrics, and grouping of data according to the tactical role played by the athlete. The methodology consisted of structuring the dataset into four segments: goalkeepers, defenders, midfielders, and attackers. It applied multiple linear regression and analyzed the results to identify the most relevant metrics by position and their respective impact coefficients. The model was evaluated based on its performance in predicting the ratings of two players per position, ensuring diversity in playing styles, physical characteristics, leagues, and player origins. It also analyzed metrics such as R², which measures the model's explanatory power, and the root-mean-square error (RMSE). The results indicate that offensive metrics such as goals, assists, shots on target, shots on goal, and penalty kicks converted have a positive impact on ratings, while defensive metrics do not contribute as significantly. The results reinforce the importance of contextualizing the data based on the match's storyline and the player's role.
This report presents the statistical modeling process for soccer player performance, aiming to identify and quantify the key metrics that influence the numerical classifications assigned to athletes' performances in official matches, known as ratings. Although platforms like SofaScore are well-established in assigning ratings to player performance (ratings), the rating process lacks transparency. This research aims to identify the most relevant statistical attributes for describing athlete performance by position, building models capable of transforming individual metrics into a quantitative evaluation index (rating). To achieve this goal, data was extracted from the SofaScore platform, following the steps of automatic collection via API, data processing, analysis of available metrics, exclusion of redundant metrics, and grouping of data according to the tactical role played by the athlete. The methodology consisted of structuring the dataset into four segments: goalkeepers, defenders, midfielders, and attackers. It applied multiple linear regression and analyzed the results to identify the most relevant metrics by position and their respective impact coefficients. The model was evaluated based on its performance in predicting the ratings of two players per position, ensuring diversity in playing styles, physical characteristics, leagues, and player origins. It also analyzed metrics such as R², which measures the model's explanatory power, and the root-mean-square error (RMSE). The results indicate that offensive metrics such as goals, assists, shots on target, shots on goal, and penalty kicks converted have a positive impact on ratings, while defensive metrics do not contribute as significantly. The results reinforce the importance of contextualizing the data based on the match's storyline and the player's role.
Palavras-chave
Análise de desempenho; Futebol; Ciência de dados; Regressão linear; Métricas esportivas; Performance analysis; Soccer; Data science; inear regression; Sports metrics
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Sinopse
Objetivos de aprendizagem
Idioma
Português
Notas
Membros da banca
Área do Conhecimento CNPQ
ENGENHARIAS
OUTROS::ENGENHARIA MECATRONICA
OUTROS::ENGENHARIA MECATRONICA