Please use this identifier to cite or link to this item: https://repositorio.insper.edu.br/handle/11224/5403
Type: Relatório de Iniciação Científica
Title: Estudo comparativo de modelos de otimização de agentes autônomos baseados em aprendizado por reforço
Author: Rocha, João Gabriel Valentim
Advisor: Ayres, Fábio José
Publication Date: 2022
Original Abstract: O estudo comparativo de modelos de optimização de agente autônomos tem influência direta nas circunstâncias tecnológicas atuais. O crescimento exponencial do número de aplicações da área de Reinforcement Learning tem trazido a necessidade de estudos comparativos, haja vista a importância de selecionar e utilizar algoritmos cada vez mais atuais, mais rápidos e mais eficientes para aquela tarefa. Logo, nosso objetivo é trazer um estudo detalhado a respeito do desempenho, sob as métricas adequadas, que os principais algoritmos de optimização de agentes autônomos têm e compará-los. Nesse sentido, utilizamos um ambiente de simulação para entender cada algoritmo na essência enquanto fazemos cada estudo comparativo. Sob essa perspectiva, é de suma importância tomar como base os estudos mais recentes de algoritmos de optimização que são utilizados hoje. A utilização das métricas para avaliar um algoritmo vai variar de algoritmo para algoritmo, caberá a nós escolher e utilizar as mais adequadas para aquele tipo de processo de aprendizagem do agente. Além disso, alguns métodos podem ser inseridos junto ao algoritmo, com o intuito de melhorar a performance da aprendizagem do agente. Nesse sentido, utilizamos os métodos de Curriculum Learning e Transfer Learning, que consiste na ideia de transferência de aprendizado por meio de um curriculum. Em outras palavras, é possível que um agente possa aprender a realizar uma tarefa complexa pela secção dessa tarefa em tarefas menores que podem transferir o aprendizado de uma tarefa (menos complexa) para a próxima (mais complexa). Dessa forma, é possível que a curva de aprendizagem (ou a de recompensa acumulativa) venha a convergir em um tempo menor e com menos esforço. O processo de estabelecer um comparativo entre modelos de algoritmos de optimização de agente autônomos é, portanto, crucial para o embasamento necessário que permite que o número de aplicações e solução de problemas cresçam cada vez mais, sobretudo, aquelas que envolvem as técnicas de Reinforcement Learning.
Keywords (english terms): Reinforcement Learning
Genetic Algorithms
Neural networks policies
Steering Behaviors
Policy gradients
REINFORCE
Proximal Policy Optimization
Curriculum Learning
Language: Português
CNPq Area: Ciências Sociais Aplicadas
Copyright: TODOS OS DOCUMENTOS DESTA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEM.
Appears in Collections:Relatório de Iniciação Científica

Files in This Item:
File Description SizeFormat 
João Gabriel Valentim Rocha - Trabalho.pdfJoão Gabriel Valentim Rocha - Trabalho2.18 MBAdobe PDFThumbnail
View/Open
João Gabriel Valentim Rocha - Termo de autorização.pdfJoão Gabriel Valentim Rocha - Termo de autorização105.24 kBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.