社区微信群开通啦,扫一扫抢先加入社区官方微信群
社区微信群
基本概念包括:
两部分:Agent智能体,Environment 环境
三要素:state状态,动作action,reward奖励。
Agent学习两种策略
基于价值的value-based:随机性策略,代表性的有Sarsa,Q-learning,DQN
基于策略的policy-based:随机性策略,代表方法:Policy gradient
第二课:表格型方法
方法包括SARSA方法:
On-policy策略,优化实际执行策略。
Q_learning方法:
Off-policy策略。
神经网络方法求解强化学习-DQN
本质上DQN还是Q_learning方法
SARSA:是on-online
神经网络方式
策略梯队算法
连续动作空间上上求解RL
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!