网易首页 > 网易号 > 正文 申请入驻

考试前48小时:强化学习15题救命清单(附优先级排序)

0
分享至

凌晨两点的图书馆,你盯着三百页的课件发呆——强化学习考试就在后天,但蒙特卡洛和时序差分还在脑子里打架。

这篇东西写给所有临时抱佛脚的人。不是让你"理解一切",是按分数权重给你划了15道题的优先级。照着这个顺序啃,能覆盖70%到80%的卷面。

10分大题(死也要拿下)

1. 画出RL框架图,解释五要素

Agent、Environment、State、Action、Reward的闭环关系。背一个例子:扫地机器人撞墙→调整方向→获得清洁面积奖励。

2. 贝尔曼方程推导

重点写递归形式:V(s) = R + γV(s')。解释为什么这叫"动态规划的灵魂"——当前值等于即时奖励加折扣后的未来值。

3. MDP五元组详解

(S, A, P, R, γ)每个符号的含义,加上马尔可夫性:下一状态只依赖当前状态,与历史无关。

4. 有模型 vs 无模型RL对比

画表格:Model-Based需要环境动力学P(s'|s,a),Model-Free直接试错。各举一例:动态规划 vs Q-Learning。

5. 策略迭代 vs 值迭代

策略迭代=策略评估+策略改进交替;值迭代直接更新值函数。关键区别:前者显式维护策略,后者隐式。

6. Q-Learning更新规则

公式背熟:Q(s,a) ← Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。强调Off-policy:用max选动作,实际执行不一定。

7. SARSA与Q-Learning对比

On-policy的代价:SARSA用实际采取的下一步动作更新,更保守;Q-Learning更激进,收敛更快但风险高。

8. 时序差分(TD)学习

TD(0)的核心: bootstrapping——用当前估计更新当前估计。与蒙特卡洛的本质区别:不需要等回合结束。

5分中题(概念骨架)

9. 正强化 vs 负强化定义
10. 探索-利用困境,ε-贪心策略
11. 策略函数π(a|s) vs 值函数V(s)、Q(s,a)
12. 即时奖励r_t vs 累积回报G_t = Σγ^k r_{t+k+1}
13. 折扣因子γ∈[0,1]:γ=0近视,γ=1远视但难收敛

2-3分小题(送分题别丢)

14. 四定义:Agent(决策者)、Environment(交互对象)、Episode(一次试验)、State(环境快照)
15. 马尔可夫性:P(s_{t+1}|s_t) = P(s_{t+1}|s_1,...,s_t)

48小时执行建议

第1天:按优先级过前8道大题,每道手写一遍关键公式
第2天:中题小题快速过,重点看对比类表格
考前4小时:只看贝尔曼方程和Q-Learning更新规则

这15题不是"可能考",是"几乎必考"。优先级已经标好,别在冷门推导上浪费时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗高官:通过霍尔木兹海峡的船只必须缴费

伊朗高官:通过霍尔木兹海峡的船只必须缴费

界面新闻
2026-04-26 21:09:45
伟大的13-9!赵心童淘汰丁俊晖晋级:创造2大纪录,PK墨菲冲4强!

伟大的13-9!赵心童淘汰丁俊晖晋级:创造2大纪录,PK墨菲冲4强!

刘姚尧的文字城堡
2026-04-26 19:49:57
67岁李幼斌坦言:父亲98岁,母亲95岁,每次去养老院看他们,我都非常痛苦

67岁李幼斌坦言:父亲98岁,母亲95岁,每次去养老院看他们,我都非常痛苦

手工制作阿歼
2026-04-26 18:00:42
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

一盅情怀
2026-04-26 15:32:03
特朗普紧急撤离始末披露:男子持枪冲过安检关卡,“跑得非常快”;现场响起5至8声枪响;副总统万斯比特朗普先撤;特朗普撤离时一度踉跄

特朗普紧急撤离始末披露:男子持枪冲过安检关卡,“跑得非常快”;现场响起5至8声枪响;副总统万斯比特朗普先撤;特朗普撤离时一度踉跄

极目新闻
2026-04-26 20:58:29
白宫记协晚宴安全事件嫌疑人将于27日被起诉

白宫记协晚宴安全事件嫌疑人将于27日被起诉

界面新闻
2026-04-26 20:40:26
血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

奇怪的鲨鱼们
2026-04-26 16:32:25
《大航海时代》粉丝必看:两款情怀续作,两种截然不同的海路!

《大航海时代》粉丝必看:两款情怀续作,两种截然不同的海路!

碎碎念工坊
2026-04-24 14:00:46
华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

以茶带书
2026-04-25 16:22:06
森林狼3比1掘金:逆境中杀出了多孙穆?!

森林狼3比1掘金:逆境中杀出了多孙穆?!

张佳玮写字的地方
2026-04-26 12:02:17
伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

念洲
2026-04-26 20:15:54
华为余承东:尊界新车价格在200万左右

华为余承东:尊界新车价格在200万左右

界面新闻
2026-04-26 13:08:56
在舞台上气冲霄汉的上海管乐名家左翼伟去世,他曾说只想把音乐留给观众

在舞台上气冲霄汉的上海管乐名家左翼伟去世,他曾说只想把音乐留给观众

上观新闻
2026-04-26 17:19:10
蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

小武侃风云
2026-04-26 18:52:45
月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

火山詩话
2026-04-26 15:18:10
对美元的重大误判,正在深度误导我们

对美元的重大误判,正在深度误导我们

世界灵敏度赵灵敏
2026-04-26 18:36:10
两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

大象新闻
2026-04-24 16:49:09
4月26日俄乌:40年后的灾难边缘

4月26日俄乌:40年后的灾难边缘

山河路口
2026-04-26 19:05:46
欧尔班宣布退出匈牙利国会

欧尔班宣布退出匈牙利国会

参考消息
2026-04-26 13:18:23
从1-4惨败到主帅瘫坐教练席!泰山换帅选谁?答案就在这几个人里

从1-4惨败到主帅瘫坐教练席!泰山换帅选谁?答案就在这几个人里

曹老师评球
2026-04-26 20:05:54
2026-04-26 21:23:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1730文章数 27关注度
往期回顾 全部

教育要闻

超燃暴击!孩子们为啥都乐翻天了?!这所人附系学校揭秘

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

教育
本地
亲子
家居
公开课

教育要闻

为了学生能躺睡,这所学校“借”来了180张床……

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

亲子要闻

今天我们来吃整蛊海盗桶糖果食玩

家居要闻

自然肌理 温润美学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版