Um framework para avaliação de Vision Language Models

Silva, Ellen Coutinho Lião da; Mayor, Henrique Scofield Sotto; Rodrigues, Luis Antonio Santana; Furukawa, Rodrigo Eiji

Um framework para avaliação de Vision Language Models

dc.contributor.advisor	FABIO JOSE AYRES
dc.contributor.author	Silva, Ellen Coutinho Lião da
dc.contributor.author	Mayor, Henrique Scofield Sotto
dc.contributor.author	Rodrigues, Luis Antonio Santana
dc.contributor.author	Furukawa, Rodrigo Eiji
dc.date.accessioned	2026-04-16T13:21:05Z
dc.date.issued	2025
dc.description	Projeto desenvolvido para a empresa Dell Technologies. Mentor: Pedro Henrique Pereira
dc.description.abstract	Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models – VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e avaliar seu desempenho por meio de métricas padronizadas. A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas de Video Question Answering, além da disponibilidade de uma base escalável para experimentos futuros. O framework inclui também ferramentas complementares, como um dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework. Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a questões de múltipla escolha, permitindo a execução de testes controlados e comparações quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar a domínios distintos maximizando o reaproveitamento de código.	pt
dc.description.abstract	This project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.	en
dc.format	Digital
dc.format.extent	57 p.
dc.identifier.uri	https://repositorio.insper.edu.br/handle/11224/8319
dc.language.iso	Português
dc.subject	Modelos de Linguagem e Visão	pt
dc.subject	Análise de Vídeos de Trânsito	pt
dc.subject	Benchmark de Modelos de IA	pt
dc.subject	Vision Language Models	en
dc.subject	Traffic Video Analysis	en
dc.subject	AI Benchmarking	en
dc.title	Um framework para avaliação de Vision Language Models
dc.type	bachelor thesis
dspace.entity.type	Publication
local.contributor.boardmember	FABIO JOSE AYRES
local.contributor.boardmember	RAUL IKEDA GOMES DA SILVA
local.contributor.boardmember	FABIO ROBERTO DE MIRANDA
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
local.subject.cnpq	OUTROS::ENGENHARIA MECATRONICA
local.type	Trabalho de Conclusão de Curso
relation.isAdvisorOfPublication	37971022-7c69-4e93-9186-4c9431a1f95c
relation.isAdvisorOfPublication.latestForDiscovery	37971022-7c69-4e93-9186-4c9431a1f95c
relation.isBoardMemberOfPublication	37971022-7c69-4e93-9186-4c9431a1f95c
relation.isBoardMemberOfPublication	0d6222c5-47b6-429a-b167-4a7670a0f6f0
relation.isBoardMemberOfPublication	a1557ede-c98b-4e05-ac46-1548a02f683f
relation.isBoardMemberOfPublication.latestForDiscovery	37971022-7c69-4e93-9186-4c9431a1f95c

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Capstone_Dell_2025_2_Vision_Language_Models__aplicacoes_praticas_e_analise_comparativa_14_pub.pdf
Tamanho:: 19.2 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 236 B
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Graduações em Engenharias e Ciência da Computação