
#136- Reinforcement Learning.
Vida com IA
00:00
Estados, trajetória e otimização de política
Filipe detalha trajetória de um episódio e como a otimização de política ajusta parâmetros para melhorar recompensas.
Play episode from 05:04
Transcript


