
用Python进行深度强化学习培训
介绍
强化学习基础
强化学习基本技术
BURLAP简介
值迭代和策略迭代的收敛
奖赏塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可观察的马尔可夫决策过程(POMDP)
选择(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q学习
博弈论(Game Theory)专题
用Python进行深度强化学习培训
介绍
强化学习基础
强化学习基本技术
BURLAP简介
值迭代和策略迭代的收敛
奖赏塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可观察的马尔可夫决策过程(POMDP)
选择(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q学习
博弈论(Game Theory)专题