Um framework para avaliação de Vision Language Models

Silva, Ellen Coutinho Lião da; Mayor, Henrique Scofield Sotto; Rodrigues, Luis Antonio Santana; Furukawa, Rodrigo Eiji

Um framework para avaliação de Vision Language Models

Autores

Silva, Ellen Coutinho Lião da

Mayor, Henrique Scofield Sotto

Rodrigues, Luis Antonio Santana

Furukawa, Rodrigo Eiji

Orientador

FABIO JOSE AYRES

Tipo de documento

Trabalho de Conclusão de Curso

Data

2025

Arquivos

Capstone_Dell_2025_2_Vision_Language_Models__aplicacoes_praticas_e_analise_comparativa_14_pub.pdf (19.2 MB)

Resumo

Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models – VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e avaliar seu desempenho por meio de métricas padronizadas. A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas de Video Question Answering, além da disponibilidade de uma base escalável para experimentos futuros. O framework inclui também ferramentas complementares, como um dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework. Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a questões de múltipla escolha, permitindo a execução de testes controlados e comparações quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar a domínios distintos maximizando o reaproveitamento de código.

This project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.

Palavras-chave

Modelos de Linguagem e Visão; Análise de Vídeos de Trânsito; Benchmark de Modelos de IA; Vision Language Models; Traffic Video Analysis; AI Benchmarking

Idioma

Português

URI

https://repositorio.insper.edu.br/handle/11224/8319

Notas

Projeto desenvolvido para a empresa Dell Technologies. Mentor: Pedro Henrique Pereira

Membros da banca

FABIO JOSE AYRES

RAUL IKEDA GOMES DA SILVA

FABIO ROBERTO DE MIRANDA

Área do Conhecimento CNPQ

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

OUTROS::ENGENHARIA MECATRONICA

Coleções

Graduações em Engenharias e Ciência da Computação

Página do item completo