强化学习课程_叶梓讲师

课程大纲：

强化学习课程

第一天强化学习
第一课强化学习综述
1.强化学习要解决的问题
2.强化学习方法的分类
3.强化学习方法的发展趋势
4.环境搭建实验（Gym，TensorFlow等）
5.Gym环境的基本使用方法

第二课马尔科夫决策过程
1.基本概念：马尔科夫性、马尔科夫过程、马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
案例：构建机器人找金币和迷宫的环境

第三课基于模型的动态规划方法
1.动态规划概念介绍
2.策略评估过程介绍
3.策略改进方法介绍
4.策略迭代和值迭代
案例：实现基于模型的强化学习算法

第四课蒙特卡罗方法
1.蒙特卡罗策略评估
2.蒙特卡罗策略改进
3.基于蒙特卡罗的强化学习
4.同策略和异策略
案例：利用蒙特卡罗方法实现机器人找金币和迷宫

第五课时序差分方法
1.DP，MC和TD方法比较
2.MC和TD方法偏差与方差平衡
3.同策略TD方法：Sarsa 方法
4.异策略TD方法：Q-learning 方法
案例：Q-learning和Sarsa的实现

第二天从强化学习到深度强化学习
第一课基于值函数逼近方法（强化学习）
1.维数灾难与表格型强化学习
2.值函数的参数化表示
3.值函数的估计过程
4.常用的基函数

第二课基于值函数逼近方法（深度学习与强化学习的结合）
1.简单提一下深度学习
2.深度学习与强化学习的结合
3.DQN 方法介绍
4.DQN变种：Double DQN, Prioritized Replay, Dueling Network
案例：用DQN玩游戏——flappy bird
第三课策略梯度方法（强化学习）
1.策略梯度方法介绍
2.常见的策略表示
3.常见的减小方差的方法:引入基函数法，修改估计值函数法
案例：利用gym和tensorflow实现小车倒立摆系统等

第四课 Alpha Go（深度学习与强化学习的结合）
1.MCTS
2.策略网络与价值网络
3.Alpha Go的完整架构
第五课 GAN（深度学习）
1.VAE与基本GAN
2.DCGAN
3.WGAN
案例：生成手写数字的GAN

第三天深度强化学习进阶
第一课 AC类方法-1
1. PG的问题与AC的思路
2. AC类方法的发展历程
3. Actor-Critic基本原理
第二课 AC类方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例：AC类方法的案例

第三课信赖域系方法-1
1.信赖域系方法背景
2.信赖域系方法发展路线图
3.TRPO方法
案例：TRPO方法的案例

第四课信赖域系方法-2
1.PPO方法
2.DPPO方法简介
3.ACER方法
案例：PPO方法的案例

第五课多Agent强化学习
1.矩阵博弈
2.纳什均衡
3.多人随机博弈学习
4.完全合作、完全竞争与混合任务
5.MADDPG
案例：MADDPG的案例等

强化学习课程

首页>公开课程 > 其它课程 [返回PC端]

强化学习与深度强化学习

讲师：叶梓天数：3天费用：元/人关注：2659

日程安排：

课程大纲：

上一篇: 计算机视觉的深度学习实践
下一篇: 《构建社群新零售的逻辑与方法》

其他相关公开课程:

完美合同-采购及销售人员合同法律知识&风险防控

家庭幸福与企业和谐之道

80、90后员工职业素养提升

NPI-新产品导入

结构化思维—高效人士的思考与表达习惯

“二手车鉴定评估师”国家职业资格认证考前培训班

“智能楼宇管理师”国家职业资格认证考前培训班

“汽车修理工(一级)”国家职业资格认证考前培训班


联系电话：4000504030 24小时热线（微信）： 13262638878（华东） 18311088860（华北） 13380305545（华南） 15821558037（华西）服务投诉：13357915191		线上课程关注公众号

首页>公开课程 > 其它课程 [返回PC端]

强化学习与深度强化学习

讲师：叶梓天数：3天费用：元/人关注：2659

日程安排：

课程大纲：

上一篇: 计算机视觉的深度学习实践 下一篇: 《构建社群新零售的逻辑与方法》

其他相关公开课程:

完美合同-采购及销售人员合同法律知识&风险防控

家庭幸福与企业和谐之道

80、90后员工职业素养提升

NPI-新产品导入

结构化思维—高效人士的思考与表达习惯

“二手车鉴定评估师”国家职业资格认证 考前培训班

“智能楼宇管理师”国家职业资格认证考前培训班

“汽车修理工(一级)”国家职业资格认证考前培训班

上一篇: 计算机视觉的深度学习实践
下一篇: 《构建社群新零售的逻辑与方法》

“二手车鉴定评估师”国家职业资格认证考前培训班