姚顺雨入职腾讯50天后，发布了首篇署名论文：CL-Bench|上下文|知识库|新论文|知名企业|bench

分享至

前两天大家都在吐槽被元宝红包活动刷屏了。那一头，千问又出来整春节30亿红包的活动。

我倒是不介意大厂们在用户福利上继续竞争，卷一卷的。至少我的3块2毛6今天是领导了～

不过今天小龙哥好像终于打完高尔夫回来看手机了，微信安全中心出手，认定元宝红包「诱导用户高频分享」，直接把链接给屏蔽了。

还能这么玩...

全网都在讨论这事，不过我倒是真没兴趣写长文吃瓜的。

而是我觉得在这个热闹里，腾讯AI团队发的一篇还挺有趣，甚至未来可能挺重要的论文可能被忽略了。

这是2月3日，姚顺雨加入腾讯后的第一篇署名论文。

这事得从去年说起。

2025年4月，还在OpenAI工作的姚顺雨发了一篇博客，叫《The Second Half》（AI的下半场）。

那篇文章里有一句话让我印象很深：

「下半场将把重心从'解决问题'转向'定义问题'。我们不再只是问'能不能训练出一个模型解决X问题？'，而是要问'我们究竟应该让AI去做什么？又该如何衡量真正的进展？'」

当时看完觉得，说得挺对，但有点虚。因为他只提出了问题，但怎么定义？没说。

现在算是有阶段性答案了。

这篇论文叫《CL-bench: A Benchmark for Context Learning》，做了一个新的benchmark。测试结果是：所有前沿模型，平均分17.2%。最强的GPT-5.1也只拿到23.7%。

集体不及格。

先回顾一下《The Second Half》说了什么

去年12月姚顺雨入职腾讯的时候，我写过一篇文章介绍他的背景和这篇博客。这里再简单说一下核心观点。

姚顺雨认为，过去几十年AI的主要精力都放在「上半场」——开发新的训练方法和模型。从DeepBlue到AlphaGo，从GPT到o-series，历史性的突破都来自于「如何训练出更好的模型」。

但现在，这个配方已经基本标准化了：大规模语言预训练 + 数据和算力扩展 + 推理与行动范式。用这套配方，可以解决软件开发、创意写作、IMO级数学题等各种任务。

那下半场要做什么？

姚顺雨提出了一个关键概念：效用问题（Utility Problem）。

他说，AI已经在国际象棋和围棋上击败了世界冠军，在SAT和律师资格考试中超过了大多数人类。可世界并没有发生太大改变——至少从经济和GDP的角度来看如此。

为什么？

因为我们的评估方式和现实世界存在根本差异。

比如，现有的benchmark假设任务是「自动运行」的——模型接收输入，自主执行，得到结果。但现实中，AI必须在任务过程中持续与人类互动。

再比如，现有的benchmark假设任务是「独立同分布」的——500个测试任务，独立运行，取平均分。但现实中，任务是连续进行的。一个Google工程师在同一个代码库工作久了，效率会越来越高；但AI在同一个代码库解决了很多问题，却无法获得这种「熟悉度」。

所以姚顺雨说，下半场的新玩法是：开发新的评估方式，以衡量真实世界的效用。

CL-Bench就是这个思路的第一次落地。

CL-Bench测的是什么？

先说一个反常识的现象。

现在的前沿模型（Frontier Model）在各种长上下文benchmark上表现都很好。标准的「大海捞针」测试，几乎所有模型都能拿到接近满分。LongBench v2这种阅读理解测试，模型得分甚至能以两倍的水平远超人类。

但一进入Agent干活模式，模型就不行了。

为什么？我琢磨了一下，发现这里面有个关键的区分。

因为真实场景需要的不是「从上下文中找到信息」，而是「从上下文中学会知识，然后用这些知识解决问题」。

这是两回事。

举个例子。一个律师拿到一份新的监管文件，需要立即理解其中的条款并为客户提供建议。一个工程师阅读一份刚发布的产品手册，需要快速掌握操作流程来排除故障。

这时候，你需要的知识就在手头的材料里。但你必须真正学会它，才能正确地用起来。

这种能力，腾讯混元团队称之为「上下文学习」（Context Learning）。

注意，这和我们更熟悉的「In-Context Learning」（ICL）不是一回事。

ICL是给模型几个例子，让它学会一个简单的模式。比如给三个「英文→中文」的翻译例子，模型就知道接下来要做翻译。这是一种浅层的模式匹配。

Context Learning要求更高——模型需要从上下文中学习复杂的、结构化的知识体系，然后在新的场景中正确应用这些知识。

打个比方：ICL像是看几道例题就去做作业，Context Learning像是读完整本教材再去考试。

四类任务：学生、数学家、操作员、科学家

CL-Bench设计了四类任务，难度递进：

1. 知识获取（模拟学生）

给模型一份虚构的百科全书，考察它能不能准确记住并应用这些知识。

比如给一个虚构国家的完整法律体系，然后问：在这个国家，某种行为是否违法？

这是最基础的——能不能把知识「背下来」。

2. 形式推理（模拟数学家）

给模型一套陌生的公理系统，考察它能不能用这些公理进行逻辑推导。

比如创建一个新的编程语言，有独特的语法和语义规则，让模型用这套规则写代码。

这考验的是「在一个封闭的逻辑闭环里严丝合缝地推导」的能力。

3. 流程任务执行（模拟操作员）

给模型一份复杂的SOP手册，考察它能不能严格按照流程执行任务。

比如给一个无人机物流系统的详细API文档，让模型生成操作代码。手册里写了什么能做、什么不能做，模型必须完全遵守。

这考验的是「长链条的执行纪律」——错一步，满盘皆输。

4. 经验发现（模拟科学家）

这是最难的。给模型一堆杂乱的实验数据，让它自己归纳出背后隐藏的规律。

比如给一组物理实验的观测结果，让模型发现其中的物理定律。

这是从「应用知识」到「发现知识」的跨越。

说实话，这个benchmark做得挺重的。500个复杂上下文、1899个任务、31607个验证标准。每个上下文平均对应63.2个验证条目，每个任务平均有16.6个评估标准。

为了保证模型不能靠预训练知识作弊，采用了「无污染」设计：所有上下文要么是完全虚构的（比如为虚构国家设计一套完整的法律体系），要么是对现有知识的修改（比如创建具有独特语法的新编程语言），要么是极其小众的长尾内容。

专家平均花了20小时来标注单个场景。51.1%的任务有序列依赖关系——后面的问题依赖前面问题的答案，不能跳着做。

研究团队做了验证：让GPT-5.1在不提供上下文的情况下尝试解答1000个随机任务，成功率只有0.9%。说明没有上下文，这些任务对模型来说几乎无解。

最惨的发现：模型不会归纳

测试结果挺残酷的。

模型

任务成功率

GPT-5.1 (high)

23.7%

Claude Opus 4.5

19.9%

Gemini 3 Pro

18.9%

DeepSeek-R1

16.6%

Llama 4 Maverick

12.9%

平均分17.2%。

而且，模型的错误很有规律。论文统计了三类主要错误：

漏用上下文：55.3%
误用上下文：61.5%
格式不遵守：35.3%

论文里有个具体案例：Gemini 3 Pro被要求为一个无人机物流系统生成操作伪代码。系统文档提供了详细的API说明，用户的请求故意违反了安全协议。

Gemini的表现怎么样？

它正确地拒绝了非法请求——这是对的。但它没能生成完整的合规替代方案：它忽略了文档中明确要求的替代函数，也没有绑定任务中给出的具体参数。

换句话说，模型「知道什么不能做」，但「不知道应该怎么做」。它读了手册，但没学会手册。

更重要的发现是：在四类任务中，模型在「经验发现」（归纳）上的表现最差——任务成功率通常低于10%。

这个数字挺有意思的。

之前写DeepSeek的Engram论文时，我引用过博尔赫斯的短篇《博闻强记的富内斯》。富内斯能记住一切，但无法思考——因为思考需要抽象，需要忘记差异。

CL-Bench的发现正好是反过来的：模型能做总结（一种复述和组织），但不擅长归纳（需要建模和泛化）。

总结是「把已有的东西换个说法」，归纳是「从已有的东西发现新规律」。前者是压缩，后者是创造。

模型在前者上表现还行，在后者上一塌糊涂。

这个benchmark不是用来刷的

看到这个17.2%的平均分，你可能会想：那接下来各家肯定会卷这个分数吧？

但姚顺雨可能不这么想。

《晚点》有篇报道提到，姚顺雨在腾讯内部会上说，希望团队以后不要打榜，也不要盯着榜单做事。

这和他在《The Second Half》里的观点完全一致。他说过，当智能程度较低时，提升智能通常能提升效用。但现在不是了——我们需要重新设计评估框架，以推动真实应用突破。

这里有个更大的背景。

现在很多AI能力benchmark都被刷爆了。MMLU、HumanEval、各种考试，模型动辄90多分，早就超过人类水平了。但这些高分并没有转化成真实世界的价值——模型考试厉害，干活还是不行。

问题出在哪？可能不是模型不够强，而是我们问的问题不够对。

CL-Bench的思路是：与其在旧问题上继续卷分数，不如提出一个新的、正确的问题。用一个好的benchmark来驱动模型改进，而不是让模型去适应一个已经不再有区分度的benchmark。

这可能就是「下半场」的演进方式，咱就先别急着跑分了，而是先比比谁能提出更好的问题。

所以CL-Bench的意义不在于「又一个可以刷的榜单」，而在于「标记出了一个真正的能力短板」。

这个短板是什么？

论文最后一段写得很直接：

「只有当模型能够快速内化完全陌生的上下文，并精确地应用那些知识来解决问题时，人工智能才能超越知识库的限制，演变成真正的推理Agent。」

换句话说，现在的模型本质上还是「知识库的调用者」。它们能做的，是把预训练时学到的知识重新组合、输出。

但真正的Agent需要的是「从上下文中学习新知识」的能力。这个能力，现在的模型几乎没有。

往大了说：谁提供context，谁掌握主动权

论文的Discussion部分给了四条可能的改进方向：

训练数据要强上下文学习——在预训练阶段就加入需要从上下文学习的任务
更好的位置编码——让模型更好地理解上下文中的结构
更长的上下文窗口——但这只是必要条件，不是充分条件
新的注意力机制——让模型更有效地从长上下文中提取和应用知识

但我觉得更有意思的是论文里的一句话：

「一旦上下文学习能力变得可靠，人类将不再是主要的数据提供者，而是context提供者。竞争的焦点将从'谁能训练出更好的模型'转向'谁能为任务提供最丰富、最相关的context'。」

这个判断我觉得挺重要的。

现在的AI竞争主要在「模型层」——谁的模型更大、训练数据更多、效果更好。但如果context learning问题解决了，竞争焦点可能会转向「context层」。

谁拥有最好的专业知识库？谁能把这些知识组织成模型能学会的形式？谁能在对的时机提供对的context？

论文还提到一个更远的愿景：模型如何「记忆」，可能成为2026年的另一个核心主题。

现在的模型有个问题：学完就忘。你在一个session里教会它某个规则，关掉窗口，下次还得重新教。这在长期协作场景里是致命的。

说到这个，最近很火的Clawdbot（OpenClaw）就是个有意思的案例。很多人觉得它体验特别好——懂你、有人味、能长期使用、上下文不爆。其实核心就是他们在memory和上下文工程上做了大量工作。

但这是「工程层」的解决方案：通过更聪明的context管理、记忆压缩、检索增强来绕过模型本身的限制。

CL-Bench指向的是另一条路——「模型层」的改进。让模型本身学会从context中学习，而不是靠外部系统来补。这条路更难，但可能更本质。

长期来看，两条路可能都需要。但如果模型层的context learning能力上来了，工程层的很多workaround可能就不需要那么复杂了。

最后

回到开头。

2025年4月，姚顺雨写了一篇博客，说AI下半场的重心是「定义问题」和「设计评估」。

2026年2月，他交出了第一个具体的答案：一个平均分只有17.2%的benchmark，精确地标记出了模型在「上下文学习」上的短板。

这个benchmark某种程度上算是一个提醒：我们以为模型已经很强了，但在这个能力上，它们还差得很远。

姚顺雨在入职腾讯之前说过一句话：「真正决定模型价值的，不是它能在benchmark上刷多高的分，而是它能不能解决真实世界的问题。」

CL-Bench算是这句话的一个注脚。

从博客到论文，从理念到落地，50天时间。

这可能就是腾讯看中他的原因之一，不只是会写论文，更重要的是知道该写什么论文。这个时代正在奖励提出正确问题的人。

参考资料：

CL-Bench论文：https://arxiv.org/abs/2602.03587
CL-Bench代码与数据：https://github.com/Tencent-Hunyuan/CL-bench
姚顺雨《The Second Half》：https://ysymyth.github.io/The-Second-Half/
腾讯混元技术博客：https://hy.tencent.com/research

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

姚顺雨入职腾讯50天后，发布了首篇署名论文：CL-Bench

太烦人遭投诉！元宝红包链接被微信屏蔽

女子痛斥爱泼斯坦：我一次又一次被强奸 他禽兽不如

女子痛斥爱泼斯坦：我一次又一次被强奸 他禽兽不如

哈登回应交易:不想让自己拖累快船的未来

春晚主持人阵容曝光，5位都是老面孔

白银，突然暴涨

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

围观了北京第一届黑色羽绒服大赛，我笑疯了

还在涨！成交量连飙四个月 海口二手房开始稳了！

耳石症分类型，症状大不同

vivo联合中国联通推出“eSIM手表尝鲜季”活动

女子痛斥爱泼斯坦：我一次又一次被强奸他禽兽不如

女子痛斥爱泼斯坦：我一次又一次被强奸他禽兽不如

还在涨！成交量连飙四个月海口二手房开始稳了！