Um framework para avaliação de Vision Language Models

dc.contributor.advisorFABIO JOSE AYRES
dc.contributor.authorSilva, Ellen Coutinho Lião da
dc.contributor.authorMayor, Henrique Scofield Sotto
dc.contributor.authorRodrigues, Luis Antonio Santana
dc.contributor.authorFurukawa, Rodrigo Eiji
dc.date.accessioned2026-04-16T13:21:05Z
dc.date.issued2025
dc.descriptionProjeto desenvolvido para a empresa Dell Technologies. Mentor: Pedro Henrique Pereira
dc.description.abstractEste projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models – VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e avaliar seu desempenho por meio de métricas padronizadas. A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas de Video Question Answering, além da disponibilidade de uma base escalável para experimentos futuros. O framework inclui também ferramentas complementares, como um dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework. Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a questões de múltipla escolha, permitindo a execução de testes controlados e comparações quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar a domínios distintos maximizando o reaproveitamento de código.pt
dc.description.abstractThis project aims to develop an effective and modular system for evaluating the performance of Vision-Language Models (VLMs) in different video interpretation scenarios. To achieve this, a Python-based framework was implemented, capable of integrating video datasets, executing multiple VLMs and evaluating their performance through standardized metrics. The development strategy prioritizes the use of pretrained, open-source models, without additional training stages. The results include an evaluation of accuracy, limitations, and model capabilities in Video Question Answering tasks, while also providing a scalable foundation for future experiments. The framework also includes complementary tools, such as a dashboard for visual analysis of results and a web interface designed to simplify the generation of the framework’s components. As an initial case study, in order to illustrate the effectiveness of the framework, the SUTD-TrafficQA dataset was used, consisting of traffic accident videos paired with multiplechoice questions, enabling controlled experiments and quantitative comparisons across models. In addition, experiments were conducted in an alternative scenario (ActivityNet dataset), demonstrating the framework’s ability to adapt to different domains while maximizing code reusability.en
dc.formatDigital
dc.format.extent57 p.
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/8319
dc.language.isoPortuguês
dc.subjectModelos de Linguagem e Visãopt
dc.subjectAnálise de Vídeos de Trânsitopt
dc.subjectBenchmark de Modelos de IApt
dc.subjectVision Language Modelsen
dc.subjectTraffic Video Analysisen
dc.subjectAI Benchmarkingen
dc.titleUm framework para avaliação de Vision Language Models
dc.typebachelor thesis
dspace.entity.typePublication
local.contributor.boardmemberFABIO JOSE AYRES
local.contributor.boardmemberRAUL IKEDA GOMES DA SILVA
local.contributor.boardmemberFABIO ROBERTO DE MIRANDA
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
local.subject.cnpqOUTROS::ENGENHARIA MECATRONICA
local.typeTrabalho de Conclusão de Curso
relation.isAdvisorOfPublication37971022-7c69-4e93-9186-4c9431a1f95c
relation.isAdvisorOfPublication.latestForDiscovery37971022-7c69-4e93-9186-4c9431a1f95c
relation.isBoardMemberOfPublication37971022-7c69-4e93-9186-4c9431a1f95c
relation.isBoardMemberOfPublication0d6222c5-47b6-429a-b167-4a7670a0f6f0
relation.isBoardMemberOfPublicationa1557ede-c98b-4e05-ac46-1548a02f683f
relation.isBoardMemberOfPublication.latestForDiscovery37971022-7c69-4e93-9186-4c9431a1f95c

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
N/D
Nome:
Capstone_Dell_2025_2_Vision_Language_Models__aplicacoes_praticas_e_analise_comparativa_14_pub.pdf
Tamanho:
19.2 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
236 B
Formato:
Item-specific license agreed upon to submission
Descrição: