网易首页 > 网易号 > 正文 申请入驻

一张考试作弊纸,藏着强化学习的全部商业密码

0
分享至

为什么一张给学生备考用的速查表,能被几千人收藏转发?

最近我在Reddit刷到一份「强化学习考试杀手版」速查表,作者用15个要点把一门复杂学科压缩成考前1分钟能看完的框架。但让我停下来的不是考试技巧——而是这份笔记暴露了一个被忽略的事实:强化学习(Reinforcement Learning,一种通过试错与环境交互来学习最优决策的人工智能方法)的商业落地,远比我们想象的更依赖「框架思维」而非算法细节。


从考试框架到产品框架

这份速查表的第一条就点破了核心:智能体(Agent,决策者)→动作(Action)→环境(Environment)→奖励(Reward)→新状态(New State)。

作者特意标注「必须画出来,考试有分」。这个五元组循环,恰恰是当前强化学习商业化最值钱的认知模型。

2023年DeepMind用强化学习控制核聚变等离子体,2024年OpenAI的GPT-4后训练阶段大量采用人类反馈强化学习(RLHF,一种结合人类偏好反馈来优化模型输出的技术)。这些看似天差地别的应用,底层都是同一个循环:决策→执行→反馈→迭代。

速查表作者把「游戏/机器人导航」列为必写案例,这很考试导向,但也意外精准——这两个场景确实是当前强化学习ROI(投资回报率)最高的落地领域。

游戏有明确的奖励函数(得分/通关),环境完全可控;机器人导航虽然物理世界复杂,但状态空间相对有限。相比之下,推荐系统、金融交易这些「看起来更适合」的场景,反而因为奖励延迟、环境非平稳(用户偏好随时变化)而难以调优。

马尔可夫假设:产品经理的偷懒许可证

速查表第三条讲马尔可夫决策过程(MDP,一种数学建模框架,用状态集、动作集、转移概率、奖励函数和折扣因子五元组描述序贯决策问题),作者用一行公式带过:(S, A, P, R, γ)。

但真正值钱的是下面的标注:「未来只取决于当前状态」。

这个「马尔可夫性质」在学术上是简化假设,在商业上却是产品设计的核心约束。它意味着:如果你的业务场景需要追溯三年前的用户行为才能做决策,强化学习可能不是最优解。

字节跳动的短视频推荐早期尝试过端到端强化学习,最后退回到多目标排序+规则引擎的混合架构。核心痛点就是用户兴趣漂移太快,历史状态权重难以界定——这直接违反了马尔可夫假设。

反过来,自动驾驶的规控模块、仓储机器人的路径规划,这些场景的状态定义清晰(位置、速度、障碍物分布),强化学习就能发挥价值。Waymo的公开论文显示,其决策层大量采用基于值函数的近似方法,和这份速查表第5条讲的V(s)、Q(s,a)(状态价值函数和动作价值函数,分别衡量某状态或某状态下某动作的长期期望收益)完全对应。

折扣因子:藏在γ里的商业伦理

速查表第4条有个容易被忽略的细节:γ(折扣因子,0到1之间)的高低决定「未来重要还是当下重要」。

这不仅是数学参数,更是产品策略的显影液。

γ接近1的系统,比如围棋AI AlphaGo,愿意为长远布局牺牲眼前利益。γ偏低的系统,比如短视频推荐,必须优先保证即时点击率,否则用户下一秒就划走。

更隐蔽的案例是金融风控。蚂蚁集团的公开技术分享提到,其反欺诈模型的折扣因子设定经过多轮AB测试:γ太高会放过短期可疑交易,γ太低则误杀正常用户。最终采用的动态γ策略,本质上是在「平台长期信誉」和「单笔交易安全」之间找平衡。

速查表作者用「高γ→未来重要,低γ→即时奖励重要」一句话概括,考试够用,但商业落地需要更精细的拆解。

Q-Learning vs SARSA: on-policy与off-policy的产品隐喻

速查表第8-10条是考试重点,也是工程选型的高频考点。

Q-Learning是off-policy(异策略,用最优动作估计更新当前策略),用max未来奖励;SARSA是on-policy(同策略,用实际执行的动作更新),用真实下一步动作。

这个区别在产品层面的翻译是:你敢不敢让系统「想一套做一套」?

Q-Learning允许训练时用最优策略估计,部署时可以用更保守的ε-贪心策略(以一定概率随机探索,否则选择当前最优动作)。这适合仿真环境充分、上线后容错率低的场景,比如游戏NPC、工业仿真优化。

SARSA的训练和部署必须策略一致,因为更新时用的是实际发生的动作。这更适合需要在线学习、且探索本身有成本的场景,比如动态定价、库存管理。亚马逊的供应链优化 reportedly 采用类似SARSA的保守更新策略,避免价格剧烈波动引发用户投诉。

速查表作者把对比列为「考试最爱」,确实——这个区分在面试和架构评审中出现的频率,远高于更复杂的算法变体。

探索与利用:所有推荐系统的永恒困境

第11条的ε-贪心策略,是速查表里离产品经理最近的算法概念。

「探索(Exploration,尝试新动作)vs 利用(Exploitation,选择已知最优动作)」的权衡,每天都在抖音、淘宝、美团的后台发生。

ε-贪心的朴素实现是:以ε概率随机推荐,以1-ε概率推模型最优结果。这个ε该设多少?

Netflix 2022年的技术博客披露,其首页推荐的新内容曝光占比约15%-20%,对应ε≈0.15。但这个数字不是拍脑袋定的——他们建立了完整的「探索价值」评估体系,衡量新内容被探索后对未来长期点击率的贡献。

更精细的做法是上下文老虎机(Contextual Bandit,一种结合上下文信息做探索利用权衡的简化强化学习方法),速查表没展开,但提到了蒙特卡洛和时间差分(TD Learning,两种价值估计方法,前者用完整轨迹回报,后者用单步自举更新)的对比,这已是进阶考点。

为什么这份速查表值得收藏

作者最后给的1分钟复习策略很有意思:只看贝尔曼方程(Bellman Equation,将价值函数递归分解为即时奖励和折扣后未来价值的方程)、Q-Learning与SARSA、MDP。

这三件事恰好对应强化学习的三个认知层级:数学基础(贝尔曼方程的递归结构)、算法选型(Q/SARSA的工程权衡)、问题建模(MDP的假设边界)。

考试导向的笔记反而切中了商业落地的要害——大多数强化学习项目失败,不是因为算法不够新,而是因为团队在这三个基础问题上没想清:奖励信号是否可信?状态定义是否完备?探索成本是否可控?

DeepMind创始人Demis Hassabis早年访谈提过,AlphaGo项目前期花了18个月设计奖励函数和状态空间,实际算法实现只用了6个月。这个比例和速查表的内容权重恰好倒置:15条里14条讲框架和概念,只有1条提具体实现。

冷幽默

速查表结尾写着「想要第二部分请评论或访问」,然后就没有然后了——作者大概率是去准备考试,忘了更新。

这很强化学习:探索(发第一部分试探反馈)之后没有利用(根据反馈优化第二部分),最终陷入局部最优(一份永远缺一半的笔记)。

至少他证明了,连写速查表这件事本身,都能成为强化学习的反面教材。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国高规格邀请俄罗斯参加G20峰会,这说明什么?

美国高规格邀请俄罗斯参加G20峰会,这说明什么?

山河路口
2026-04-23 21:04:50
死了这条心!人民日报摊牌:中国不会救菲律宾,马科斯投机到头了

死了这条心!人民日报摊牌:中国不会救菲律宾,马科斯投机到头了

黑翼天使
2026-04-23 19:51:23
胡适:不要迷信那些好听的抽象名词,而要关注具体问题如何解决

胡适:不要迷信那些好听的抽象名词,而要关注具体问题如何解决

谈史论天地
2026-04-18 10:00:12
伊朗中央银行:霍尔木兹海峡通行费已入账

伊朗中央银行:霍尔木兹海峡通行费已入账

每日经济新闻
2026-04-24 08:27:08
新疆生产建设兵团建设工程(集团)原董事长夏建国被查

新疆生产建设兵团建设工程(集团)原董事长夏建国被查

新京报
2026-04-24 10:13:29
知名歌手因抢不到五一高铁票取消演唱会!

知名歌手因抢不到五一高铁票取消演唱会!

深圳晚报
2026-04-23 19:29:44
贵州女子痴呆21年,突然记起北京有套120平四合院,子女赶去后愣住

贵州女子痴呆21年,突然记起北京有套120平四合院,子女赶去后愣住

如烟若梦
2025-04-14 16:51:12
山东大师王兴夫被抓捕归案,99名女徒弟揭露内幕,真相让人意外

山东大师王兴夫被抓捕归案,99名女徒弟揭露内幕,真相让人意外

诡谲怪谈
2025-03-25 17:25:18
为何以前五一放7天,现在却改成五天还得调休,原来都是他的建议

为何以前五一放7天,现在却改成五天还得调休,原来都是他的建议

芭比衣橱
2026-04-24 03:26:27
洗脑、性侵、乱伦,全球头号变态复出了

洗脑、性侵、乱伦,全球头号变态复出了

独立鱼
2026-04-23 22:35:39
加拉塔萨雷官方:即刻起终止与土耳其足协管理层的一切关系

加拉塔萨雷官方:即刻起终止与土耳其足协管理层的一切关系

懂球帝
2026-04-23 18:35:02
20余万元尚未解救被困缅甸园区女孩,同园区逃生者讲述惊魂一刻

20余万元尚未解救被困缅甸园区女孩,同园区逃生者讲述惊魂一刻

界面新闻
2026-04-24 13:05:29
上海全市严厉整治!多区公布举报平台,人人可监督!一区最高奖励50万!

上海全市严厉整治!多区公布举报平台,人人可监督!一区最高奖励50万!

叮当当科技
2026-04-24 12:37:22
西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

混沌录
2026-04-22 19:19:05
特斯拉将迎来重磅更新,太猛了!

特斯拉将迎来重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
蒋家后人要在奉化动土!半世纪未归根,两蒋大迁徙卡壳难圆落叶梦

蒋家后人要在奉化动土!半世纪未归根,两蒋大迁徙卡壳难圆落叶梦

闻识
2026-04-24 11:22:44
李嘉欣现身伦敦街头被路人偶遇,顶级骨相美到发光完全不像55岁

李嘉欣现身伦敦街头被路人偶遇,顶级骨相美到发光完全不像55岁

喜欢历史的阿繁
2026-04-24 11:57:41
终于来了!全新系列模型DeepSeek-V4官宣上线

终于来了!全新系列模型DeepSeek-V4官宣上线

快科技
2026-04-24 11:13:05
拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

品牌观察官
2026-04-22 16:59:59
25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

180视角
2026-04-24 11:40:25
2026-04-24 14:08:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
1705文章数 19关注度
往期回顾 全部

教育要闻

李希贵:好校长的“金字塔模型”

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

王思聪被绿!恋爱期间女友被金主包养

财经要闻

19家企业要"铝代铜",格力偏不

科技要闻

刚刚,DeepSeek-V4 预览版发布 百万上下文

汽车要闻

全景iDrive 续航近800km 新款宝马7系/i7亮相

态度原创

艺术
健康
数码
本地
军事航空

艺术要闻

16幅 佐恩高清油画 | 瑞典著名画家

干细胞如何让烧烫伤皮肤"再生"?

数码要闻

专访巴可王红波:显示行业竞争下半场,深耕八大垂直行业与构建共赢生态

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版