Um framework para avaliação de Vision Language Models
N/D
Autores
Silva, Ellen Coutinho Lião da
Mayor, Henrique Scofield Sotto
Rodrigues, Luis Antonio Santana
Furukawa, Rodrigo Eiji
Orientador
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2025
Resumo
Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o
desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models
– VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído
um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e
avaliar seu desempenho por meio de métricas padronizadas.
A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados
obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas
de Video Question Answering, além da disponibilidade de uma base escalável para experimentos
futuros. O framework inclui também ferramentas complementares, como um
dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework.
Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a
questões de múltipla escolha, permitindo a execução de testes controlados e comparações
quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar
a domínios distintos maximizando o reaproveitamento de código.
This project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.
This project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.
Palavras-chave
Modelos de Linguagem e Visão; Análise de Vídeos de Trânsito; Benchmark de Modelos de IA; Vision Language Models; Traffic Video Analysis; AI Benchmarking
Titulo de periódico
Texto completo
Título de Livro
URL na Scopus
Sinopse
Objetivos de aprendizagem
Idioma
Português
Notas
Projeto desenvolvido para a empresa Dell Technologies. Mentor: Pedro Henrique Pereira
Membros da banca
Área do Conhecimento CNPQ
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
OUTROS::ENGENHARIA MECATRONICA
OUTROS::ENGENHARIA MECATRONICA
