Um framework para avaliação de Vision Language Models

N/D

Autores

Silva, Ellen Coutinho Lião da
Mayor, Henrique Scofield Sotto
Rodrigues, Luis Antonio Santana
Furukawa, Rodrigo Eiji

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2025

Unidades Organizacionais

Resumo

Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models – VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e avaliar seu desempenho por meio de métricas padronizadas. A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas de Video Question Answering, além da disponibilidade de uma base escalável para experimentos futuros. O framework inclui também ferramentas complementares, como um dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework. Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a questões de múltipla escolha, permitindo a execução de testes controlados e comparações quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar a domínios distintos maximizando o reaproveitamento de código.

This project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.

Palavras-chave

Modelos de Linguagem e Visão; Análise de Vídeos de Trânsito; Benchmark de Modelos de IA; Vision Language Models; Traffic Video Analysis; AI Benchmarking

Titulo de periódico

Texto completo

Título de Livro

URL na Scopus

Sinopse

Objetivos de aprendizagem

Idioma

Português

Notas

Projeto desenvolvido para a empresa Dell Technologies. Mentor: Pedro Henrique Pereira

Área do Conhecimento CNPQ

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

OUTROS::ENGENHARIA MECATRONICA

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por