Reinforcement Learning Explained
Microsoft

课程简介
强化学习,是机器学习的一个子领域。它的原理是通过与环境交互不断学习并优化算法。
本门课程旨在帮助学习者从零开始构建强化学习知识体系。学习者将从构建强化学习框架开始,通过新闻推荐、平衡杆等经典案例,逐步领会强化学习的核心思路。
在此基础之上,学习者将探索多臂赌博机、动态规划、时序差分、函数逼近等强化学习基本算法;同时,还将了解著名的“Project Malmo”平台(一个基于《我的世界》(Minecraft)游戏的人工智能研究平台)。
课程收获
在完成本节课程之后,你将了解:
- 强化学习基本概念、常见算法及应用领域
- 马尔科夫决策流程
- 赌博机问题
- 动态编程
- 时序差分学习
- 近似解方法
- 策略梯度法及演员-评论家方法
- 如何构建有效的强化学习模型
基本要求
- 熟悉Python代码,具备基本编程能力(建议前置课程:DAT208x)
- 掌握数据科学基本知识(建议前置课程:DAT203x)
- 掌握机器学习基本知识(建议前置课程:DAT275x)