强化学习快速入门与实战- 极客时间课程推荐/优惠

强化学习快速入门与实战--极客时间课程推荐/优惠

玩转 AI 决策,深入多行业应用
H 博士 & 袁从德AI 资深研究员、AI 创业公司 CTO
专栏 | 33讲 | 2475人已学习
优惠价¥59原价:129
官网优惠购买
版权声明

本站非极客时间官网,与官方无任何关系。我们不提供课程下载或详细内容,仅作为课程分享和推荐平台。我们鼓励大家支持正版,尊重创作者的劳动成果,这样不仅能帮助创作者持续产出优质内容,也能让自己获得更好的学习体验。请通过官方渠道购买和学习课程,感谢您的理解与支持。

课程详情

你将获得:

  • 理解强化学习的核心概念与经典算法;
  • 配套代码示例深入强化学习必备基础;
  • 探索强化学习领域的研究热点;
  • 解锁强化学习的 6 大应用场景。

课程介绍

强化学习已然成为 AI 核心支柱之一,近年在 AI 各领域不断有强化学习驱动的方法取得各种亮眼成绩,比如 DeepSeek-R1。

然而 RL 是一门强交叉学科,学习曲线陡峭且发展迅速。从理论的角度,RL 因为涉及时序和反馈,其复杂度高于其他机器学习科目。从工程的角度,RL 涉及分布式计算和同步/异步更新,且 RL 采样效率低,需要大量反馈,想将一个 RL 系统在实际大规模环境应用,所需的工程 trick 一点不少于其他领域。而且 RL 中的概念复杂,术语众多,甚至还有不同流派的 RLer,对概念的使用存在混杂的情况。

那么该如何入门呢?

我们邀请到在 RL 领域有着多年实践经验的 H 博士和袁从德老师,他们将采用“理论、算法、实战”相结合的方式,循序渐进地带你掌握强化学习的核心知识与实践技能。

1. 难度适中,层层递进,注重对理论的理解而非推导

祖师爷 Sutton 的 RL 圣经前几章集中讲解了大量理论相关内容,比如贝尔曼迭代、时序差分、动态规划、蒙特卡洛……很多初学者读完前几章就被劝退了。

然而对于初学者,在理解重要定理的同时,控制难度也很重要。无需将每个细节都死磕清楚。当然,想要入门 RL,MDP 数学理论依然是绕不开的部分。

因此,“基础篇”花了大量的篇幅介绍强化学习的基础,比如 MDP、Value-based RL、Policy-based RL 以及动态规划和蒙特卡洛的基本思想。但努力做到难度适中。在介绍数理相关的定理时,尽量用形象生动的语言让你对艰深晦涩的理论有直观理解,而不是像学术领域那样给出严格但枯燥的证明。同时对于想要进一步在理论上深挖的同学,讲师也会在专栏以及互动过程中提供进阶知识指引。

2. 与时俱进,注重梳理方法演进背后的思想

RL 变化日新月异,新方法层出不穷。在有限的篇幅下,为了尽量让你了解到实际应用中最有效的新方法,“进阶篇”精心选择了少数几个当前蓬勃发展的方向进行介绍。

首当其冲的是大语言模型时代风头无两的策略梯度法——PPO 和 GRPO。这里专门使用三个章节介绍 PPO 的基础——策略梯度法、重要性采样和优势函数。当你完成这三节课的学习后,再学习 PPO 和 GRPO 以及 RLHF,就可以很容易理解这些算法看似复杂的形式背后的发展脉络,也会自然明白了为何 GRPO 相对 PPO 做了那样的改变。

此外,进阶篇还覆盖了其他蓬勃发展的方向,如逆向强化学习、离线强化学习等。这些都是在实际业务中落地效果最好的方向。

3. 理论与实践结合,介绍 RL 的主要应用场景,并辅以代码加深理解

作为一门应用学科,只有理论讲解是远远不够的。因此,每节课都提供了配套代码作为简单示例,加深你对原理的理解。

同时,考虑大家需要在实际工作中使用 RL 的需求,“应用篇”介绍了 RL 在多个领域的应用。包括推荐系统、机器人控制、金融交易、资源调度、自然语言处理、计算机视觉等等,同时我们也为对 RL 开发感兴趣的朋友介绍了 OpenAI Gym 和 Ray 这两大平台。

总结来说,这门课程会为你入门强化学习做一个冷启,让你在最短的时间内对 RL 有基本了解,并可以上手做项目,最终助力你的职业发展!

课程目录

开篇词

  • 开篇词|让我们带你游览强化学习的游乐园

基础篇

  • 01|强化学习概述:从马尔可夫决策过程到智能体与环境交互
  • 02|基于价值的强化学习:从Q-learning到Deep Q-Network
  • 03|基于策略的强化学习:从策略梯度到Actor-Critic
  • 04|模型与规划:从动态规划到蒙特卡洛树搜索
  • 05|探索与利用:从多臂赌博机到汤普森采样

进阶篇

  • 06|深度强化学习:从DQN到A3C
  • 07|基础策略梯度法:Policy Gradient
  • 08|优势函数:涵盖Actor Critic/GAE/TRPO
  • 09|重要性采样:On-policy vs. Off-policy
  • 10|TRPO精读:涵盖自然梯度法、全变分约束以及最终导向PPO
  • 11|TRPO的大语言模型时代扩展:PPO、DPO以及GRPO(上)
  • 12|TRPO的大语言模型时代扩展:PPO、DPO以及GRPO(下)
  • 13|大语言模型时代的RL工作流:以RLHF为代表的后训练方法
  • 14|强化学习前沿:从模仿学习到逆向强化学习
  • 15|强化学习前沿:从离散控制到连续控制
  • 16|强化学习前沿:离线强化学习
  • 17|强化学习前沿:离线强化学习之BCQ
  • 18|强化学习前沿:离线强化学习之CQL

应用篇

  • 19|推荐系统:从个性化推荐到广告投放(上)
  • 20|推荐系统:从个性化推荐到广告投放(下)
  • 21|机器人控制:从机械臂到自动驾驶(上)
  • 22|机器人控制:从机械臂到自动驾驶(中)
  • 23|机器人控制:从机械臂到自动驾驶(下)
  • 24|金融交易:从股票交易到投资组合优化(上)
  • 25|金融交易:从股票交易到投资组合优化(下)
  • 26|资源调度:从云计算到物流配送
  • 27|自然语言处理:从机器翻译到对话系统(上)
  • 28|自然语言处理:从机器翻译到对话系统(下)
  • 29|计算机视觉:从目标检测到图像生成
  • 30|强化学习平台与工具:从OpenAI Gym到Ray
  • 31|强化学习未来展望:从通用人工智能到人机协作

结束语 & 结课测试

  • 结束语|共赴强化学习的未来征程

作者介绍

H 博士:Top2 人工智能方向博士,某大厂算法工程师。曾在某外企研究机构负责强化学习和多智能体学习相关方向的研发。曾在腾讯、美团等互联网一线大厂有超过 5 年的一线机器学习建模、推荐算法、广告算法和大语言模型研发经验,具有深厚的机器学习背景。发表过多篇顶会论文,拥有多项美国专利。 袁从德:AI 创业公司 CTO,从事推荐、广告等相关算法研发,具有深厚的技术洞察和创新能力。在腾讯、阿里等互联网一线大厂有近 8 年的分布式训练、推荐算法、广告算法和大语言模型一线开发经验。曾发表过多篇行业论文,出版书籍有《在线广告系统全链路解析:从架构设计到智能投放》《大语言模型全链路解析:从架构设计、训练优化到应用开发》。

推荐

云原生基础架构实战课 - 极客时间课程推荐/分享/优惠/折扣
云原生基础架构实战课
提升云效率,实现基础架构自动化
潘野前 eBay 云原生专家
专栏 | 3377人已学习
优惠价¥59原价:99
极客时间官网优惠购买
Rust程序设计(第2版) - 极客时间课程推荐/分享/优惠/折扣
Rust程序设计(第2版)
Rust程序设计(第2版)
Jim Blandy, Jason Orendorff, Leonora F. S. Tindall软件工程师
专栏 | 2663人已学习
优惠价¥54原价:89.9
极客时间官网优惠购买
图解 Google V8 - 极客时间课程推荐/分享/优惠/折扣
图解 Google V8
一门课搞懂 JavaScript 执行逻辑
李兵前盛大创新院高级研究员
专栏 | 27568人已学习
优惠价¥59原价:99
极客时间官网优惠购买
快手 · 音视频技术入门课 - 极客时间课程推荐/分享/优惠/折扣
快手 · 音视频技术入门课
小白也能懂的音视频技术入门指南
刘歧快手音视频首席架构师
专栏 | 5365人已学习
优惠价¥59原价:99
极客时间官网优惠购买
Dubbo源码剖析与实战 - 极客时间课程推荐/分享/优惠/折扣
Dubbo源码剖析与实战
问题+思路+解法+代码=Dubbo最强攻略
何辉平安壹钱包架构师
专栏 | 5678人已学习
优惠价¥59原价:129
极客时间官网优惠购买
AI PPT创作实战课 - 极客时间课程推荐/分享/优惠/折扣
AI PPT创作实战课
轻松上手 PPT 创作,效率创意多维提升
小6某互联网公司IT负责人
视频课 | 812人已学习
优惠价¥29原价:68
极客时间官网优惠购买