一张考试作弊纸，藏着强化学习的全部商业密码|数学|算法

一张考试作弊纸，藏着强化学习的全部商业密码

2026-04-20 18:47:13　来源: 赛博兰博

北京举报

分享至

为什么一张给学生备考用的速查表，能被几千人收藏转发？

最近我在Reddit刷到一份「强化学习考试杀手版」速查表，作者用15个要点把一门复杂学科压缩成考前1分钟能看完的框架。但让我停下来的不是考试技巧——而是这份笔记暴露了一个被忽略的事实：强化学习（Reinforcement Learning，一种通过试错与环境交互来学习最优决策的人工智能方法）的商业落地，远比我们想象的更依赖「框架思维」而非算法细节。

从考试框架到产品框架

这份速查表的第一条就点破了核心：智能体（Agent，决策者）→动作（Action）→环境（Environment）→奖励（Reward）→新状态（New State）。

作者特意标注「必须画出来，考试有分」。这个五元组循环，恰恰是当前强化学习商业化最值钱的认知模型。

2023年DeepMind用强化学习控制核聚变等离子体，2024年OpenAI的GPT-4后训练阶段大量采用人类反馈强化学习（RLHF，一种结合人类偏好反馈来优化模型输出的技术）。这些看似天差地别的应用，底层都是同一个循环：决策→执行→反馈→迭代。

速查表作者把「游戏/机器人导航」列为必写案例，这很考试导向，但也意外精准——这两个场景确实是当前强化学习ROI（投资回报率）最高的落地领域。

游戏有明确的奖励函数（得分/通关），环境完全可控；机器人导航虽然物理世界复杂，但状态空间相对有限。相比之下，推荐系统、金融交易这些「看起来更适合」的场景，反而因为奖励延迟、环境非平稳（用户偏好随时变化）而难以调优。

马尔可夫假设：产品经理的偷懒许可证

速查表第三条讲马尔可夫决策过程（MDP，一种数学建模框架，用状态集、动作集、转移概率、奖励函数和折扣因子五元组描述序贯决策问题），作者用一行公式带过：(S, A, P, R, γ)。

但真正值钱的是下面的标注：「未来只取决于当前状态」。

这个「马尔可夫性质」在学术上是简化假设，在商业上却是产品设计的核心约束。它意味着：如果你的业务场景需要追溯三年前的用户行为才能做决策，强化学习可能不是最优解。

字节跳动的短视频推荐早期尝试过端到端强化学习，最后退回到多目标排序+规则引擎的混合架构。核心痛点就是用户兴趣漂移太快，历史状态权重难以界定——这直接违反了马尔可夫假设。

反过来，自动驾驶的规控模块、仓储机器人的路径规划，这些场景的状态定义清晰（位置、速度、障碍物分布），强化学习就能发挥价值。Waymo的公开论文显示，其决策层大量采用基于值函数的近似方法，和这份速查表第5条讲的V(s)、Q(s,a)（状态价值函数和动作价值函数，分别衡量某状态或某状态下某动作的长期期望收益）完全对应。

折扣因子：藏在γ里的商业伦理

速查表第4条有个容易被忽略的细节：γ（折扣因子，0到1之间）的高低决定「未来重要还是当下重要」。

这不仅是数学参数，更是产品策略的显影液。

γ接近1的系统，比如围棋AI AlphaGo，愿意为长远布局牺牲眼前利益。γ偏低的系统，比如短视频推荐，必须优先保证即时点击率，否则用户下一秒就划走。

更隐蔽的案例是金融风控。蚂蚁集团的公开技术分享提到，其反欺诈模型的折扣因子设定经过多轮AB测试：γ太高会放过短期可疑交易，γ太低则误杀正常用户。最终采用的动态γ策略，本质上是在「平台长期信誉」和「单笔交易安全」之间找平衡。

速查表作者用「高γ→未来重要，低γ→即时奖励重要」一句话概括，考试够用，但商业落地需要更精细的拆解。

Q-Learning vs SARSA： on-policy与off-policy的产品隐喻

速查表第8-10条是考试重点，也是工程选型的高频考点。

Q-Learning是off-policy（异策略，用最优动作估计更新当前策略），用max未来奖励；SARSA是on-policy（同策略，用实际执行的动作更新），用真实下一步动作。

这个区别在产品层面的翻译是：你敢不敢让系统「想一套做一套」？

Q-Learning允许训练时用最优策略估计，部署时可以用更保守的ε-贪心策略（以一定概率随机探索，否则选择当前最优动作）。这适合仿真环境充分、上线后容错率低的场景，比如游戏NPC、工业仿真优化。

SARSA的训练和部署必须策略一致，因为更新时用的是实际发生的动作。这更适合需要在线学习、且探索本身有成本的场景，比如动态定价、库存管理。亚马逊的供应链优化 reportedly 采用类似SARSA的保守更新策略，避免价格剧烈波动引发用户投诉。

速查表作者把对比列为「考试最爱」，确实——这个区分在面试和架构评审中出现的频率，远高于更复杂的算法变体。

探索与利用：所有推荐系统的永恒困境

第11条的ε-贪心策略，是速查表里离产品经理最近的算法概念。

「探索（Exploration，尝试新动作）vs 利用（Exploitation，选择已知最优动作）」的权衡，每天都在抖音、淘宝、美团的后台发生。

ε-贪心的朴素实现是：以ε概率随机推荐，以1-ε概率推模型最优结果。这个ε该设多少？

Netflix 2022年的技术博客披露，其首页推荐的新内容曝光占比约15%-20%，对应ε≈0.15。但这个数字不是拍脑袋定的——他们建立了完整的「探索价值」评估体系，衡量新内容被探索后对未来长期点击率的贡献。

更精细的做法是上下文老虎机（Contextual Bandit，一种结合上下文信息做探索利用权衡的简化强化学习方法），速查表没展开，但提到了蒙特卡洛和时间差分（TD Learning，两种价值估计方法，前者用完整轨迹回报，后者用单步自举更新）的对比，这已是进阶考点。

为什么这份速查表值得收藏

作者最后给的1分钟复习策略很有意思：只看贝尔曼方程（Bellman Equation，将价值函数递归分解为即时奖励和折扣后未来价值的方程）、Q-Learning与SARSA、MDP。

这三件事恰好对应强化学习的三个认知层级：数学基础（贝尔曼方程的递归结构）、算法选型（Q/SARSA的工程权衡）、问题建模（MDP的假设边界）。

考试导向的笔记反而切中了商业落地的要害——大多数强化学习项目失败，不是因为算法不够新，而是因为团队在这三个基础问题上没想清：奖励信号是否可信？状态定义是否完备？探索成本是否可控？

DeepMind创始人Demis Hassabis早年访谈提过，AlphaGo项目前期花了18个月设计奖励函数和状态空间，实际算法实现只用了6个月。这个比例和速查表的内容权重恰好倒置：15条里14条讲框架和概念，只有1条提具体实现。

冷幽默

速查表结尾写着「想要第二部分请评论或访问」，然后就没有然后了——作者大概率是去准备考试，忘了更新。

这很强化学习：探索（发第一部分试探反馈）之后没有利用（根据反馈优化第二部分），最终陷入局部最优（一份永远缺一半的笔记）。

至少他证明了，连写速查表这件事本身，都能成为强化学习的反面教材。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.