FABRÍCIO JAILSON BARTHCavalcanti, Samuel Jabes Costa2025-05-162024https://repositorio.insper.edu.br/handle/11224/7689Os Sistemas de Recomendação são essenciais para o crescimento de plataformas como Netflix e Amazon Prime Video, facilitando a descoberta de conteúdo personalizado e relevante para os usuários. Entre as técnicas utilizadas no desenvolvimento desses sistemas, o aprendizado profundo é uma das mais comuns, por sua capacidade de identificar relações complexas entre usuários e produtos. No entanto, essa abordagem enfrenta desafios, como a adaptação a mudanças nas preferências dos usuários e o foco excessivo em recompensas imediatas, que podem resultar em fadiga e abandono da plataforma. O aprendizado por reforço surge como uma solução promissora para esses desafios, pois permite que o sistema aprenda continuamente com as interações dos usuários e adapte suas políticas de recomendação em tempo real, com foco no desempenho a longo prazo. Este trabalho realiza uma análise comparativa de diversas abordagens de sistemas de recomendação, incluindo as propostas de (LIU et al., 2018), (BACKGOM2357, 2024), e (XUE et al., 2017), além de propor um novo algoritmo baseado em aprendizado por reforço. A implementação utiliza modelos de embeddings da OpenAI para vetorizar descrições textuais do dataset MovieLens (1M), visando alcançar resultados comparáveis aos da literatura. No entanto, os resultados obtidos não comprovam a superioridade dos algoritmos de recomendação baseados em aprendizado por reforço em relação aos que utilizam apenas aprendizado profundo. Um dos desafios encontrados foi a dificuldade de replicar a proposta de (LIU et al., 2018), cuja metodologia apresenta valores de precisão e NDCG superiores aos das abordagens de aprendizado profundo, evidenciando a sensibilidade desses sistemas à formulação do problema e à configuração dos embeddings.Digital59 p.PortuguêsReinforcement LearningRecommender SystemsNeural networks policiesCollaborative FilteringContent-Based FilteringPolicy gradientsDeep DeterministicPolicy GradientEstudo comparativo de modelos de sistemas de recomendação baseados em aprendizado por esforçoreport