Solução Full-Stack de machine learning para Visão Computacional em Ambientes Industriais: Classificação, Versionamento e Treinamento Local de Modelos

CARLOS MAGNO DE OLIVEIRA VALENTEMachado, Diego Baptista DaureaCelestino, Douglas Pablo BraçalSilva, Gustavo Mendes daRizzo, Pedro Ivo de2025-11-282025https://repositorio.insper.edu.br/handle/11224/8124Projeto realizado para a empresa ABB / Mentor: Tiago Prata, MSc (R&D Engineer, Software Engineer and Talent Ambassador at ABB)Este projeto dedica-se a estabelecer uma solução full-stack de machine learning para algoritmos de visão computacional, com versionamento, reclassificação e retreinamento de modelos, operando integralmente via Intranet para facilitar seu uso em plantas industriais. Tal abordagem visa atender qualquer processo, permitindo ao usuário realizar o upload de mídias, escolher as Labels que deseja classificar e anotar manualmente bounding boxes para rotulagem supervisionada e depois treinamento e retreinamento de modelos de visão computacional com as mídias rotuladas. Para isso, empregou-se Python e o modelo de detecção de objetos YOLO, associadas a um fluxo de versionamento (DVC/Git) que permite realimentar o modelo conforme surgem correções manuais de classificação. O frontend foi desenvolvido utilizando Next.js e Node.js, proporcionando uma interface interativa e eficiente para interação com os modelos. Além disso, toda a arquitetura foi dockerizada utilizando Docker, garantindo portabilidade, escalabilidade e facilidade de implantação em ambientes industriais. O resultado é um sistema robusto que permite evolução dos modelos e datasets sem depender de soluções em nuvem, garantindo escalabilidade e adequação às necessidades industriais locais.This project aims to establish a full-stack machine learning solution for computer vision algorithms, with versioning, reclassification, and model retraining capabilities, operating entirely over an Intranet to facilitate its use in industrial mining plants. This approach is designed to support any process, allowing users to upload media, select the labels they want to classify, and manually annotate bounding boxes for supervised labeling and then train or retrain computer vision models. The system leverages Python and the YOLO object detection model, combined with a versioning flow (DVC/Git) that enables retraining as manual classification corrections are implemented. The frontend was developed using Next.js and Node.js, providing an interactive and efficient interface for interacting with the models. Furthermore, the entire architecture is containerized using Docker, ensuring portability, scalability, and ease of deployment in industrial environments. The result is a robust system that allows the evolution of models and datasets without relying on cloud-based solutions, providing scalability and alignment with local industrial needs.Digital80 p.PortuguêsClassificação de ImagensVisão ComputacionalVersionamento de ModelosArquitetura de softwareArquitetura full-stackImage ClassificationMining, Computer VisionModel VersioningSoftware ArchitectureFull-Stack architectureSolução Full-Stack de machine learning para Visão Computacional em Ambientes Industriais: Classificação, Versionamento e Treinamento Local de Modelosbachelor thesis