为什么一张给学生备考用的速查表,能被几千人收藏转发?
最近我在Reddit刷到一份「强化学习考试杀手版」速查表,作者用15个要点把一门复杂学科压缩成考前1分钟能看完的框架。但让我停下来的不是考试技巧——而是这份笔记暴露了一个被忽略的事实:强化学习(Reinforcement Learning,一种通过试错与环境交互来学习最优决策的人工智能方法)的商业落地,远比我们想象的更依赖「框架思维」而非算法细节。
![]()
从考试框架到产品框架
这份速查表的第一条就点破了核心:智能体(Agent,决策者)→动作(Action)→环境(Environment)→奖励(Reward)→新状态(New State)。
作者特意标注「必须画出来,考试有分」。这个五元组循环,恰恰是当前强化学习商业化最值钱的认知模型。
2023年DeepMind用强化学习控制核聚变等离子体,2024年OpenAI的GPT-4后训练阶段大量采用人类反馈强化学习(RLHF,一种结合人类偏好反馈来优化模型输出的技术)。这些看似天差地别的应用,底层都是同一个循环:决策→执行→反馈→迭代。
速查表作者把「游戏/机器人导航」列为必写案例,这很考试导向,但也意外精准——这两个场景确实是当前强化学习ROI(投资回报率)最高的落地领域。
游戏有明确的奖励函数(得分/通关),环境完全可控;机器人导航虽然物理世界复杂,但状态空间相对有限。相比之下,推荐系统、金融交易这些「看起来更适合」的场景,反而因为奖励延迟、环境非平稳(用户偏好随时变化)而难以调优。
马尔可夫假设:产品经理的偷懒许可证
速查表第三条讲马尔可夫决策过程(MDP,一种数学建模框架,用状态集、动作集、转移概率、奖励函数和折扣因子五元组描述序贯决策问题),作者用一行公式带过:(S, A, P, R, γ)。
但真正值钱的是下面的标注:「未来只取决于当前状态」。
这个「马尔可夫性质」在学术上是简化假设,在商业上却是产品设计的核心约束。它意味着:如果你的业务场景需要追溯三年前的用户行为才能做决策,强化学习可能不是最优解。
字节跳动的短视频推荐早期尝试过端到端强化学习,最后退回到多目标排序+规则引擎的混合架构。核心痛点就是用户兴趣漂移太快,历史状态权重难以界定——这直接违反了马尔可夫假设。
反过来,自动驾驶的规控模块、仓储机器人的路径规划,这些场景的状态定义清晰(位置、速度、障碍物分布),强化学习就能发挥价值。Waymo的公开论文显示,其决策层大量采用基于值函数的近似方法,和这份速查表第5条讲的V(s)、Q(s,a)(状态价值函数和动作价值函数,分别衡量某状态或某状态下某动作的长期期望收益)完全对应。
折扣因子:藏在γ里的商业伦理
速查表第4条有个容易被忽略的细节:γ(折扣因子,0到1之间)的高低决定「未来重要还是当下重要」。
这不仅是数学参数,更是产品策略的显影液。
γ接近1的系统,比如围棋AI AlphaGo,愿意为长远布局牺牲眼前利益。γ偏低的系统,比如短视频推荐,必须优先保证即时点击率,否则用户下一秒就划走。
更隐蔽的案例是金融风控。蚂蚁集团的公开技术分享提到,其反欺诈模型的折扣因子设定经过多轮AB测试:γ太高会放过短期可疑交易,γ太低则误杀正常用户。最终采用的动态γ策略,本质上是在「平台长期信誉」和「单笔交易安全」之间找平衡。
速查表作者用「高γ→未来重要,低γ→即时奖励重要」一句话概括,考试够用,但商业落地需要更精细的拆解。
Q-Learning vs SARSA: on-policy与off-policy的产品隐喻
速查表第8-10条是考试重点,也是工程选型的高频考点。
Q-Learning是off-policy(异策略,用最优动作估计更新当前策略),用max未来奖励;SARSA是on-policy(同策略,用实际执行的动作更新),用真实下一步动作。
这个区别在产品层面的翻译是:你敢不敢让系统「想一套做一套」?
Q-Learning允许训练时用最优策略估计,部署时可以用更保守的ε-贪心策略(以一定概率随机探索,否则选择当前最优动作)。这适合仿真环境充分、上线后容错率低的场景,比如游戏NPC、工业仿真优化。
SARSA的训练和部署必须策略一致,因为更新时用的是实际发生的动作。这更适合需要在线学习、且探索本身有成本的场景,比如动态定价、库存管理。亚马逊的供应链优化 reportedly 采用类似SARSA的保守更新策略,避免价格剧烈波动引发用户投诉。
速查表作者把对比列为「考试最爱」,确实——这个区分在面试和架构评审中出现的频率,远高于更复杂的算法变体。
探索与利用:所有推荐系统的永恒困境
第11条的ε-贪心策略,是速查表里离产品经理最近的算法概念。
「探索(Exploration,尝试新动作)vs 利用(Exploitation,选择已知最优动作)」的权衡,每天都在抖音、淘宝、美团的后台发生。
ε-贪心的朴素实现是:以ε概率随机推荐,以1-ε概率推模型最优结果。这个ε该设多少?
Netflix 2022年的技术博客披露,其首页推荐的新内容曝光占比约15%-20%,对应ε≈0.15。但这个数字不是拍脑袋定的——他们建立了完整的「探索价值」评估体系,衡量新内容被探索后对未来长期点击率的贡献。
更精细的做法是上下文老虎机(Contextual Bandit,一种结合上下文信息做探索利用权衡的简化强化学习方法),速查表没展开,但提到了蒙特卡洛和时间差分(TD Learning,两种价值估计方法,前者用完整轨迹回报,后者用单步自举更新)的对比,这已是进阶考点。
为什么这份速查表值得收藏
作者最后给的1分钟复习策略很有意思:只看贝尔曼方程(Bellman Equation,将价值函数递归分解为即时奖励和折扣后未来价值的方程)、Q-Learning与SARSA、MDP。
这三件事恰好对应强化学习的三个认知层级:数学基础(贝尔曼方程的递归结构)、算法选型(Q/SARSA的工程权衡)、问题建模(MDP的假设边界)。
考试导向的笔记反而切中了商业落地的要害——大多数强化学习项目失败,不是因为算法不够新,而是因为团队在这三个基础问题上没想清:奖励信号是否可信?状态定义是否完备?探索成本是否可控?
DeepMind创始人Demis Hassabis早年访谈提过,AlphaGo项目前期花了18个月设计奖励函数和状态空间,实际算法实现只用了6个月。这个比例和速查表的内容权重恰好倒置:15条里14条讲框架和概念,只有1条提具体实现。
冷幽默
速查表结尾写着「想要第二部分请评论或访问」,然后就没有然后了——作者大概率是去准备考试,忘了更新。
这很强化学习:探索(发第一部分试探反馈)之后没有利用(根据反馈优化第二部分),最终陷入局部最优(一份永远缺一半的笔记)。
至少他证明了,连写速查表这件事本身,都能成为强化学习的反面教材。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.