Graduações em Engenharias e Ciência da Computação

URI permanente para esta coleçãohttps://repositorio.insper.edu.br/handle/11224/3249

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 1 de 1
  • Imagem de Miniatura
    Trabalho de Conclusão de Curso
    Um framework para avaliação de Vision Language Models
    (2025) Silva, Ellen Coutinho Lião da; Mayor, Henrique Scofield Sotto; Rodrigues, Luis Antonio Santana; Furukawa, Rodrigo Eiji
    Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models – VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e avaliar seu desempenho por meio de métricas padronizadas. A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas de Video Question Answering, além da disponibilidade de uma base escalável para experimentos futuros. O framework inclui também ferramentas complementares, como um dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework. Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a questões de múltipla escolha, permitindo a execução de testes controlados e comparações quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar a domínios distintos maximizando o reaproveitamento de código.