跳至主要内容

Reinforcement Learning Explained

课程简介

强化学习,是机器学习的一个子领域。它的原理是通过与环境交互不断学习并优化算法。

本门课程旨在帮助学习者从零开始构建强化学习知识体系。学习者将从构建强化学习框架开始,通过新闻推荐、平衡杆等经典案例,逐步领会强化学习的核心思路。

在此基础之上,学习者将探索多臂赌博机、动态规划、时序差分、函数逼近等强化学习基本算法;同时,还将了解著名的“Project Malmo”平台(一个基于《我的世界》(Minecraft)游戏的人工智能研究平台)。

课程收获

在完成本节课程之后,你将了解:

  • 强化学习基本概念、常见算法及应用领域
  • 马尔科夫决策流程
  • 赌博机问题
  • 动态编程
  • 时序差分学习
  • 近似解方法
  • 策略梯度法及演员-评论家方法
  • 如何构建有效的强化学习模型

基本要求

  • 熟悉Python代码,具备基本编程能力(建议前置课程:DAT208x)
  • 掌握数据科学基本知识(建议前置课程:DAT203x)
  • 掌握机器学习基本知识(建议前置课程:DAT275x)
  1. 课程代码

    DAT257x
  2. 课程开始

  3. 课程结束

  4. 预期课程目标

    Total 24 to 48 hours
选修