
Coleção de livros de docentes
Outros destaques
Comunidades no Repositório
Selecione uma comunidade para navegar por suas coleções
Submissões Recentes
Um framework para avaliação de Vision Language Models
(2025) Silva, Ellen Coutinho Lião da; Mayor, Henrique Scofield Sotto; Rodrigues, Luis Antonio Santana; Furukawa, Rodrigo Eiji
Este projeto tem como objetivo desenvolver um sistema eficaz e modular para avaliar o
desempenho de Modelos Multimodais de Linguagem e Visão (Vision Language Models
– VLMs) em diferentes cenários de interpretação de vídeos. Para isso, foi construído
um framework em Python capaz de integrar datasets de vídeo, acionar distintos VLMs e
avaliar seu desempenho por meio de métricas padronizadas.
A estratégia de desenvolvimento adotada prioriza o uso de modelos pré-treinados e disponíveis em bibliotecas open-source, sem etapas de treinamento adicional. Os resultados
obtidos incluem a avaliação da precisão, limitações e capacidades dos VLMs em tarefas
de Video Question Answering, além da disponibilidade de uma base escalável para experimentos
futuros. O framework inclui também ferramentas complementares, como um
dashboard para análise visual dos resultados e uma interface web destinada a simplificar a geração de componentes do framework.
Como estudo de caso inicial, para ilustrar a efetividade do uso do framework, utilizou-se o dataset SUTD-TrafficQA, composto por vídeos de acidentes de trânsito associados a
questões de múltipla escolha, permitindo a execução de testes controlados e comparações
quantitativas entre modelos. Além disso, foram conduzidos experimentos em um cenário alternativo (dataset ActivityNet), demonstrando a capacidade do framework em se adaptar
a domínios distintos maximizando o reaproveitamento de código.
Captações via crowdfunding no Brasil: próximos passos
(2026) Costa, Isac
Profissão: arquiteto ou a vida como ela é
(2026) Escudeiro, Heloisa Loureiro
Compadrio brasileiro é movido a contratações de parentes de ministros, jatinhos, charutos e resorts
(2026) FERNANDO LUIS SCHULER



