强化学习精要：核心算法与TensorFlow实现课件

资源描述

强化学习精要：核心算法与TensorFlow 实现演讲人2025-11-11强化学习精要：核心算法与TensorFlow实现演讲人202101.02.03.04.目录第一部分强化学习入门与基础知识第二部分最优价值算法第三部分基于策略梯度的算法第四部分其他强化学习算法01.02.03.04.目录第一部分强化学习入门与基础知识2第一部分强化学习入门与基础知识01第一部分强化学习入门与基础知识013第一部分强化学习入门与基础知识M.94275.CN01031引言2数学与机器学习基础3优化算法020405064TensorFlow入门5Gym与Baselines6强化学习基本算法第一部分强化学习入门与基础知识M.94275.CN01034第一部分强化学习入门与基础知识1引言1.1强化学习的概念011.2站在被实验者的角度看问题021.3强化学习效果的评估031.4强化学习与监督学习041.5强化学习的实验环境051.6本书的主要内容06第一部分强化学习入门与基础知识1 引言1.1 强化学习的概51引言u1.7参考资料第一部分强化学习入门与基础知识1 引言1.7 参考资料第一部分强化学习入门与基础知识6第一部分强化学习入门与基础知识2数学与机器学习基础2.1线性代数基础A2.2对称矩阵的性质B2.3概率论C2.4重要性采样D2.5信息论基础E2.6KL散度F第一部分强化学习入门与基础知识2 数学与机器学习基础2.17第一部分强化学习入门与基础知识2数学与机器学习基础2.7凸函数及其性质2.8机器学习的基本概念2.10总结2.9机器学习的目标函数第一部分强化学习入门与基础知识2 数学与机器学习基础2.78第一部分强化学习入门与基础知识3优化算法D3.4自然梯度法E3.5总结A3.1梯度下降法B3.2动量算法C3.3共轭梯度法第一部分强化学习入门与基础知识3 优化算法D3.4 自然梯9第一部分强化学习入门与基础知识4TensorFlow入门4.1TensorFlow 的基本使用方法4.3TensorFlow 的分布式训练4.5总结4.2TensorFlow 原理介绍4.4基于TensorFlow实现经典网络结构4.6参考资料第一部分强化学习入门与基础知识4 TensorFlow入门102第一部分强化学习入门与基础知识5Gym与Baselines5.2Baselines025.3总结035.1Gym012第一部分强化学习入门与基础知识5 Gym与Baselin11第一部分强化学习入门与基础知识6强化学习基本算法6.2策略迭代026.1马尔可夫决策过程016.3价值迭代036.4泛化迭代046.5总结05第一部分强化学习入门与基础知识6 强化学习基本算法6.2 12第二部分最优价值算法02第二部分最优价值算法0213第二部分最优价值算法7Q-Learning基础8DQN的改进算法第二部分最优价值算法7 Q-Learning基础14第二部分最优价值算法7Q-Learning基础7.1状态转移概率：从掌握到放弃7.3探索与利用7.5时序差分法与SARSA7.2蒙特卡罗方法7.4蒙特卡罗的方差问题7.6Q-Learning第二部分最优价值算法7 Q-Learning基础7.1 状15第二部分最优价值算法7Q-Learning基础3157.9DeepQNetwork7.7Q-Learning的收敛性分析7.11参考资料47.10总结27.8从表格形式到价值模型第二部分最优价值算法7 Q-Learning基础3157.16第二部分最优价值算法8DQN的改进算法8.1DoubleQ-Learning018.2PriorityReplayBuffer028.3DuelingDQN038.4解决DQN的冷启动问题048.5DistributionalDQN058.6NoisyNetwork06第二部分最优价值算法8 DQN的改进算法8.1 Doubl17第二部分最优价值算法8DQN的改进算法8.7Rainbow018.8总结028.9参考资料03第二部分最优价值算法8 DQN的改进算法8.7 Rainb18第三部分基于策略梯度的算法03第三部分基于策略梯度的算法0319第三部分基于策略梯度的算法9基于策略梯度的算法10使策略单调提升的优化算法11Off-Policy策略梯度法第三部分基于策略梯度的算法9 基于策略梯度的算法20第三部分基于策略梯度的算法9基于策略梯度的算法9.1策略梯度法19.2Actor-Critic算法29.3总结39.4参考资料4第三部分基于策略梯度的算法9 基于策略梯度的算法9.1 策21第三部分基于策略梯度的算法10使策略单调提升的优化算法D10.4总结E10.5参考资料A10.1TRPOB10.2GAEC10.3PPO第三部分基于策略梯度的算法10 使策略单调提升的优化算法D22第三部分基于策略梯度的算法11Off-Policy策略梯度法11.4总结11.5参考资料11.1Retrace11.2ACER11.3DPG第三部分基于策略梯度的算法11 Off-Policy策略梯23第四部分其他强化学习算法04第四部分其他强化学习算法0424第四部分其他强化学习算法12稀疏回报的求解方法13Model-based方法14反向强化学习入门15反向强化学习算法2.0第四部分其他强化学习算法12 稀疏回报的求解方法25第四部分其他强化学习算法12稀疏回报的求解方法0112.1稀疏回报的困难12.2层次强化学习0203040512.3HER12.4总结12.5参考资料第四部分其他强化学习算法12 稀疏回报的求解方法0112.26第四部分其他强化学习算法13Model-based方法13.1AlphaZero0113.2iLQR0213.4参考资料0413.3总结03第五部分反向强化学习05第四部分其他强化学习算法13 Model-based方法127第四部分其他强化学习算法14反向强化学习入门010314.1基本概念14.2从最优策略求解回报14.3求解线性规划0204050614.4无限状态下的求解14.5从样本中学习14.6总结第四部分其他强化学习算法14 反向强化学习入门0103142814反向强化学习入门u14.7参考资料第四部分其他强化学习算法14 反向强化学习入门14.7 参考资料第四部分其他强化学29第四部分其他强化学习算法15反向强化学习算法2.0010315.1最大熵模型15.2最大熵反向强化学习15.3GAIL0204050615.4GAIL实现15.5总结15.6参考资料第四部分其他强化学习算法15 反向强化学习算法2.001030感谢聆听2020感谢聆听202031

展开阅读全文

强化学习精要：核心算法与TensorFlow实现课件

最新文档