百度7日强化学习总结

基本概念包括：

两部分：Agent智能体，Environment 环境

三要素：state状态，动作action，reward奖励。

Agent学习两种策略

基于价值的value-based:随机性策略，代表性的有Sarsa，Q-learning,DQN

基于策略的policy-based:随机性策略，代表方法：Policy gradient

第二课：表格型方法

方法包括SARSA方法：

On-policy策略，优化实际执行策略。

Q_learning方法：

Off-policy策略。

神经网络方法求解强化学习-DQN

本质上DQN还是Q_learning方法

SARSA:是on-online

神经网络方式

策略梯队算法

连续动作空间上上求解RL

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/sinat_28729797/article/details/106966188
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2021-06-14 21:35:29
阅读 ( 1132 )
分类：职场

百度7日强化学习总结

你可能感兴趣的文章

精选的优质文章

0 条评论

官方社群

GO教程

推荐文章

猜你喜欢

随便看看