前两天大家都在吐槽被元宝红包活动刷屏了。那一头,千问又出来整春节30亿红包的活动。
我倒是不介意大厂们在用户福利上继续竞争,卷一卷的。至少我的3块2毛6今天是领导了~
![]()
不过今天小龙哥好像终于打完高尔夫回来看手机了,微信安全中心出手,认定元宝红包「诱导用户高频分享」,直接把链接给屏蔽了。
![]()
还能这么玩...
全网都在讨论这事,不过我倒是真没兴趣写长文吃瓜的。
而是我觉得在这个热闹里,腾讯AI团队发的一篇还挺有趣,甚至未来可能挺重要的论文可能被忽略了。
这是2月3日,姚顺雨加入腾讯后的第一篇署名论文。
![]()
这事得从去年说起。
2025年4月,还在OpenAI工作的姚顺雨发了一篇博客,叫《The Second Half》(AI的下半场)。
![]()
那篇文章里有一句话让我印象很深:
「下半场将把重心从'解决问题'转向'定义问题'。我们不再只是问'能不能训练出一个模型解决X问题?',而是要问'我们究竟应该让AI去做什么?又该如何衡量真正的进展?'」
当时看完觉得,说得挺对,但有点虚。因为他只提出了问题,但怎么定义?没说。
现在算是有阶段性答案了。
这篇论文叫《CL-bench: A Benchmark for Context Learning》,做了一个新的benchmark。测试结果是:所有前沿模型,平均分17.2%。最强的GPT-5.1也只拿到23.7%。
集体不及格。
先回顾一下《The Second Half》说了什么
去年12月姚顺雨入职腾讯的时候,我写过一篇文章介绍他的背景和这篇博客。这里再简单说一下核心观点。
![]()
姚顺雨认为,过去几十年AI的主要精力都放在「上半场」——开发新的训练方法和模型。从DeepBlue到AlphaGo,从GPT到o-series,历史性的突破都来自于「如何训练出更好的模型」。
但现在,这个配方已经基本标准化了:大规模语言预训练 + 数据和算力扩展 + 推理与行动范式。用这套配方,可以解决软件开发、创意写作、IMO级数学题等各种任务。
那下半场要做什么?
姚顺雨提出了一个关键概念:效用问题(Utility Problem)。
他说,AI已经在国际象棋和围棋上击败了世界冠军,在SAT和律师资格考试中超过了大多数人类。可世界并没有发生太大改变——至少从经济和GDP的角度来看如此。
为什么?
因为我们的评估方式和现实世界存在根本差异。
比如,现有的benchmark假设任务是「自动运行」的——模型接收输入,自主执行,得到结果。但现实中,AI必须在任务过程中持续与人类互动。
再比如,现有的benchmark假设任务是「独立同分布」的——500个测试任务,独立运行,取平均分。但现实中,任务是连续进行的。一个Google工程师在同一个代码库工作久了,效率会越来越高;但AI在同一个代码库解决了很多问题,却无法获得这种「熟悉度」。
所以姚顺雨说,下半场的新玩法是:开发新的评估方式,以衡量真实世界的效用。
CL-Bench就是这个思路的第一次落地。
CL-Bench测的是什么?
先说一个反常识的现象。
现在的前沿模型(Frontier Model)在各种长上下文benchmark上表现都很好。标准的「大海捞针」测试,几乎所有模型都能拿到接近满分。LongBench v2这种阅读理解测试,模型得分甚至能以两倍的水平远超人类。
但一进入Agent干活模式,模型就不行了。
为什么?我琢磨了一下,发现这里面有个关键的区分。
因为真实场景需要的不是「从上下文中找到信息」,而是「从上下文中学会知识,然后用这些知识解决问题」。
这是两回事。
举个例子。一个律师拿到一份新的监管文件,需要立即理解其中的条款并为客户提供建议。一个工程师阅读一份刚发布的产品手册,需要快速掌握操作流程来排除故障。
这时候,你需要的知识就在手头的材料里。但你必须真正学会它,才能正确地用起来。
这种能力,腾讯混元团队称之为「上下文学习」(Context Learning)。
注意,这和我们更熟悉的「In-Context Learning」(ICL)不是一回事。
ICL是给模型几个例子,让它学会一个简单的模式。比如给三个「英文→中文」的翻译例子,模型就知道接下来要做翻译。这是一种浅层的模式匹配。
Context Learning要求更高——模型需要从上下文中学习复杂的、结构化的知识体系,然后在新的场景中正确应用这些知识。
打个比方:ICL像是看几道例题就去做作业,Context Learning像是读完整本教材再去考试。
四类任务:学生、数学家、操作员、科学家
![]()
CL-Bench设计了四类任务,难度递进:
1. 知识获取(模拟学生)
给模型一份虚构的百科全书,考察它能不能准确记住并应用这些知识。
比如给一个虚构国家的完整法律体系,然后问:在这个国家,某种行为是否违法?
这是最基础的——能不能把知识「背下来」。
2. 形式推理(模拟数学家)
给模型一套陌生的公理系统,考察它能不能用这些公理进行逻辑推导。
比如创建一个新的编程语言,有独特的语法和语义规则,让模型用这套规则写代码。
这考验的是「在一个封闭的逻辑闭环里严丝合缝地推导」的能力。
3. 流程任务执行(模拟操作员)
给模型一份复杂的SOP手册,考察它能不能严格按照流程执行任务。
比如给一个无人机物流系统的详细API文档,让模型生成操作代码。手册里写了什么能做、什么不能做,模型必须完全遵守。
这考验的是「长链条的执行纪律」——错一步,满盘皆输。
4. 经验发现(模拟科学家)
这是最难的。给模型一堆杂乱的实验数据,让它自己归纳出背后隐藏的规律。
比如给一组物理实验的观测结果,让模型发现其中的物理定律。
这是从「应用知识」到「发现知识」的跨越。
说实话,这个benchmark做得挺重的。500个复杂上下文、1899个任务、31607个验证标准。每个上下文平均对应63.2个验证条目,每个任务平均有16.6个评估标准。
为了保证模型不能靠预训练知识作弊,采用了「无污染」设计:所有上下文要么是完全虚构的(比如为虚构国家设计一套完整的法律体系),要么是对现有知识的修改(比如创建具有独特语法的新编程语言),要么是极其小众的长尾内容。
专家平均花了20小时来标注单个场景。51.1%的任务有序列依赖关系——后面的问题依赖前面问题的答案,不能跳着做。
![]()
研究团队做了验证:让GPT-5.1在不提供上下文的情况下尝试解答1000个随机任务,成功率只有0.9%。说明没有上下文,这些任务对模型来说几乎无解。
最惨的发现:模型不会归纳
测试结果挺残酷的。
模型
任务成功率
GPT-5.1 (high)
23.7%
Claude Opus 4.5
19.9%
Gemini 3 Pro
18.9%
DeepSeek-R1
16.6%
Llama 4 Maverick
12.9%
平均分17.2%。
![]()
而且,模型的错误很有规律。论文统计了三类主要错误:
漏用上下文:55.3%
误用上下文:61.5%
格式不遵守:35.3%
![]()
论文里有个具体案例:Gemini 3 Pro被要求为一个无人机物流系统生成操作伪代码。系统文档提供了详细的API说明,用户的请求故意违反了安全协议。
Gemini的表现怎么样?
它正确地拒绝了非法请求——这是对的。但它没能生成完整的合规替代方案:它忽略了文档中明确要求的替代函数,也没有绑定任务中给出的具体参数。
换句话说,模型「知道什么不能做」,但「不知道应该怎么做」。它读了手册,但没学会手册。
更重要的发现是:在四类任务中,模型在「经验发现」(归纳)上的表现最差——任务成功率通常低于10%。
这个数字挺有意思的。
之前写DeepSeek的Engram论文时,我引用过博尔赫斯的短篇《博闻强记的富内斯》。富内斯能记住一切,但无法思考——因为思考需要抽象,需要忘记差异。
CL-Bench的发现正好是反过来的:模型能做总结(一种复述和组织),但不擅长归纳(需要建模和泛化)。
总结是「把已有的东西换个说法」,归纳是「从已有的东西发现新规律」。前者是压缩,后者是创造。
模型在前者上表现还行,在后者上一塌糊涂。
这个benchmark不是用来刷的
看到这个17.2%的平均分,你可能会想:那接下来各家肯定会卷这个分数吧?
但姚顺雨可能不这么想。
《晚点》有篇报道提到,姚顺雨在腾讯内部会上说,希望团队以后不要打榜,也不要盯着榜单做事。
这和他在《The Second Half》里的观点完全一致。他说过,当智能程度较低时,提升智能通常能提升效用。但现在不是了——我们需要重新设计评估框架,以推动真实应用突破。
这里有个更大的背景。
现在很多AI能力benchmark都被刷爆了。MMLU、HumanEval、各种考试,模型动辄90多分,早就超过人类水平了。但这些高分并没有转化成真实世界的价值——模型考试厉害,干活还是不行。
问题出在哪?可能不是模型不够强,而是我们问的问题不够对。
CL-Bench的思路是:与其在旧问题上继续卷分数,不如提出一个新的、正确的问题。用一个好的benchmark来驱动模型改进,而不是让模型去适应一个已经不再有区分度的benchmark。
这可能就是「下半场」的演进方式,咱就先别急着跑分了,而是先比比谁能提出更好的问题。
所以CL-Bench的意义不在于「又一个可以刷的榜单」,而在于「标记出了一个真正的能力短板」。
这个短板是什么?
论文最后一段写得很直接:
「只有当模型能够快速内化完全陌生的上下文,并精确地应用那些知识来解决问题时,人工智能才能超越知识库的限制,演变成真正的推理Agent。」
换句话说,现在的模型本质上还是「知识库的调用者」。它们能做的,是把预训练时学到的知识重新组合、输出。
但真正的Agent需要的是「从上下文中学习新知识」的能力。这个能力,现在的模型几乎没有。
往大了说:谁提供context,谁掌握主动权
论文的Discussion部分给了四条可能的改进方向:
训练数据要强上下文学习——在预训练阶段就加入需要从上下文学习的任务
更好的位置编码——让模型更好地理解上下文中的结构
更长的上下文窗口——但这只是必要条件,不是充分条件
新的注意力机制——让模型更有效地从长上下文中提取和应用知识
但我觉得更有意思的是论文里的一句话:
「一旦上下文学习能力变得可靠,人类将不再是主要的数据提供者,而是context提供者。竞争的焦点将从'谁能训练出更好的模型'转向'谁能为任务提供最丰富、最相关的context'。」
这个判断我觉得挺重要的。
现在的AI竞争主要在「模型层」——谁的模型更大、训练数据更多、效果更好。但如果context learning问题解决了,竞争焦点可能会转向「context层」。
谁拥有最好的专业知识库?谁能把这些知识组织成模型能学会的形式?谁能在对的时机提供对的context?
论文还提到一个更远的愿景:模型如何「记忆」,可能成为2026年的另一个核心主题。
现在的模型有个问题:学完就忘。你在一个session里教会它某个规则,关掉窗口,下次还得重新教。这在长期协作场景里是致命的。
说到这个,最近很火的Clawdbot(OpenClaw)就是个有意思的案例。很多人觉得它体验特别好——懂你、有人味、能长期使用、上下文不爆。其实核心就是他们在memory和上下文工程上做了大量工作。
但这是「工程层」的解决方案:通过更聪明的context管理、记忆压缩、检索增强来绕过模型本身的限制。
CL-Bench指向的是另一条路——「模型层」的改进。让模型本身学会从context中学习,而不是靠外部系统来补。这条路更难,但可能更本质。
长期来看,两条路可能都需要。但如果模型层的context learning能力上来了,工程层的很多workaround可能就不需要那么复杂了。
最后
回到开头。
2025年4月,姚顺雨写了一篇博客,说AI下半场的重心是「定义问题」和「设计评估」。
2026年2月,他交出了第一个具体的答案:一个平均分只有17.2%的benchmark,精确地标记出了模型在「上下文学习」上的短板。
这个benchmark某种程度上算是一个提醒:我们以为模型已经很强了,但在这个能力上,它们还差得很远。
姚顺雨在入职腾讯之前说过一句话:「真正决定模型价值的,不是它能在benchmark上刷多高的分,而是它能不能解决真实世界的问题。」
CL-Bench算是这句话的一个注脚。
从博客到论文,从理念到落地,50天时间。
这可能就是腾讯看中他的原因之一,不只是会写论文,更重要的是知道该写什么论文。这个时代正在奖励提出正确问题的人。
参考资料:
CL-Bench论文:https://arxiv.org/abs/2602.03587
CL-Bench代码与数据:https://github.com/Tencent-Hunyuan/CL-bench
姚顺雨《The Second Half》:https://ysymyth.github.io/The-Second-Half/
腾讯混元技术博客:https://hy.tencent.com/research
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.