Estudo comparativo de modelos de otimização de agentes autônomos baseados em aprendizado por reforço

Rocha, João Gabriel Valentim

Estudo comparativo de modelos de otimização de agentes autônomos baseados em aprendizado por reforço

Autores

Rocha, João Gabriel Valentim

Orientador

Ayres, Fábio José

Tipo de documento

Relatório de Iniciação Científica

Data

2022

Arquivos

João Gabriel Valentim Rocha - Trabalho.pdf (2.13 MB)

João Gabriel Valentim Rocha - Termo de autorização.pdf (105.24 KB)

Resumo

O estudo comparativo de modelos de optimização de agente autônomos tem influência direta nas circunstâncias tecnológicas atuais. O crescimento exponencial do número de aplicações da área de Reinforcement Learning tem trazido a necessidade de estudos comparativos, haja vista a importância de selecionar e utilizar algoritmos cada vez mais atuais, mais rápidos e mais eficientes para aquela tarefa. Logo, nosso objetivo é trazer um estudo detalhado a respeito do desempenho, sob as métricas adequadas, que os principais algoritmos de optimização de agentes autônomos têm e compará-los. Nesse sentido, utilizamos um ambiente de simulação para entender cada algoritmo na essência enquanto fazemos cada estudo comparativo. Sob essa perspectiva, é de suma importância tomar como base os estudos mais recentes de algoritmos de optimização que são utilizados hoje. A utilização das métricas para avaliar um algoritmo vai variar de algoritmo para algoritmo, caberá a nós escolher e utilizar as mais adequadas para aquele tipo de processo de aprendizagem do agente. Além disso, alguns métodos podem ser inseridos junto ao algoritmo, com o intuito de melhorar a performance da aprendizagem do agente. Nesse sentido, utilizamos os métodos de Curriculum Learning e Transfer Learning, que consiste na ideia de transferência de aprendizado por meio de um curriculum. Em outras palavras, é possível que um agente possa aprender a realizar uma tarefa complexa pela secção dessa tarefa em tarefas menores que podem transferir o aprendizado de uma tarefa (menos complexa) para a próxima (mais complexa). Dessa forma, é possível que a curva de aprendizagem (ou a de recompensa acumulativa) venha a convergir em um tempo menor e com menos esforço. O processo de estabelecer um comparativo entre modelos de algoritmos de optimização de agente autônomos é, portanto, crucial para o embasamento necessário que permite que o número de aplicações e solução de problemas cresçam cada vez mais, sobretudo, aquelas que envolvem as técnicas de Reinforcement Learning.

Idioma

Português

URI

https://repositorio.insper.edu.br/handle/11224/5403

Área do Conhecimento CNPQ

Ciências Sociais Aplicadas

Coleções

Relatório de Iniciação Científica

Página do item completo