网易首页 > 网易号 > 正文 申请入驻

姚顺雨入职腾讯50天后,发布了首篇署名论文:CL-Bench

0
分享至

前两天大家都在吐槽被元宝红包活动刷屏了。那一头,千问又出来整春节30亿红包的活动。

我倒是不介意大厂们在用户福利上继续竞争,卷一卷的。至少我的3块2毛6今天是领导了~


不过今天小龙哥好像终于打完高尔夫回来看手机了,微信安全中心出手,认定元宝红包「诱导用户高频分享」,直接把链接给屏蔽了。


还能这么玩...

全网都在讨论这事,不过我倒是真没兴趣写长文吃瓜的。

而是我觉得在这个热闹里,腾讯AI团队发的一篇还挺有趣,甚至未来可能挺重要的论文可能被忽略了。

这是2月3日,姚顺雨加入腾讯后的第一篇署名论文。


这事得从去年说起。

2025年4月,还在OpenAI工作的姚顺雨发了一篇博客,叫《The Second Half》(AI的下半场)。


那篇文章里有一句话让我印象很深:

「下半场将把重心从'解决问题'转向'定义问题'。我们不再只是问'能不能训练出一个模型解决X问题?',而是要问'我们究竟应该让AI去做什么?又该如何衡量真正的进展?'」

当时看完觉得,说得挺对,但有点虚。因为他只提出了问题,但怎么定义?没说。

现在算是有阶段性答案了。

这篇论文叫《CL-bench: A Benchmark for Context Learning》,做了一个新的benchmark。测试结果是:所有前沿模型,平均分17.2%。最强的GPT-5.1也只拿到23.7%。

集体不及格。

先回顾一下《The Second Half》说了什么

去年12月姚顺雨入职腾讯的时候,我写过一篇文章介绍他的背景和这篇博客。这里再简单说一下核心观点。


姚顺雨认为,过去几十年AI的主要精力都放在「上半场」——开发新的训练方法和模型。从DeepBlue到AlphaGo,从GPT到o-series,历史性的突破都来自于「如何训练出更好的模型」。

但现在,这个配方已经基本标准化了:大规模语言预训练 + 数据和算力扩展 + 推理与行动范式。用这套配方,可以解决软件开发、创意写作、IMO级数学题等各种任务。

那下半场要做什么?

姚顺雨提出了一个关键概念:效用问题(Utility Problem)。

他说,AI已经在国际象棋和围棋上击败了世界冠军,在SAT和律师资格考试中超过了大多数人类。可世界并没有发生太大改变——至少从经济和GDP的角度来看如此。

为什么?

因为我们的评估方式和现实世界存在根本差异。

比如,现有的benchmark假设任务是「自动运行」的——模型接收输入,自主执行,得到结果。但现实中,AI必须在任务过程中持续与人类互动。

再比如,现有的benchmark假设任务是「独立同分布」的——500个测试任务,独立运行,取平均分。但现实中,任务是连续进行的。一个Google工程师在同一个代码库工作久了,效率会越来越高;但AI在同一个代码库解决了很多问题,却无法获得这种「熟悉度」。

所以姚顺雨说,下半场的新玩法是:开发新的评估方式,以衡量真实世界的效用。

CL-Bench就是这个思路的第一次落地。

CL-Bench测的是什么?

先说一个反常识的现象。

现在的前沿模型(Frontier Model)在各种长上下文benchmark上表现都很好。标准的「大海捞针」测试,几乎所有模型都能拿到接近满分。LongBench v2这种阅读理解测试,模型得分甚至能以两倍的水平远超人类。

但一进入Agent干活模式,模型就不行了。

为什么?我琢磨了一下,发现这里面有个关键的区分。

因为真实场景需要的不是「从上下文中找到信息」,而是「从上下文中学会知识,然后用这些知识解决问题」。

这是两回事。

举个例子。一个律师拿到一份新的监管文件,需要立即理解其中的条款并为客户提供建议。一个工程师阅读一份刚发布的产品手册,需要快速掌握操作流程来排除故障。

这时候,你需要的知识就在手头的材料里。但你必须真正学会它,才能正确地用起来。

这种能力,腾讯混元团队称之为「上下文学习」(Context Learning)。

注意,这和我们更熟悉的「In-Context Learning」(ICL)不是一回事。

ICL是给模型几个例子,让它学会一个简单的模式。比如给三个「英文→中文」的翻译例子,模型就知道接下来要做翻译。这是一种浅层的模式匹配。

Context Learning要求更高——模型需要从上下文中学习复杂的、结构化的知识体系,然后在新的场景中正确应用这些知识。

打个比方:ICL像是看几道例题就去做作业,Context Learning像是读完整本教材再去考试。

四类任务:学生、数学家、操作员、科学家


CL-Bench设计了四类任务,难度递进:

1. 知识获取(模拟学生)

给模型一份虚构的百科全书,考察它能不能准确记住并应用这些知识。

比如给一个虚构国家的完整法律体系,然后问:在这个国家,某种行为是否违法?

这是最基础的——能不能把知识「背下来」。

2. 形式推理(模拟数学家)

给模型一套陌生的公理系统,考察它能不能用这些公理进行逻辑推导。

比如创建一个新的编程语言,有独特的语法和语义规则,让模型用这套规则写代码。

这考验的是「在一个封闭的逻辑闭环里严丝合缝地推导」的能力。

3. 流程任务执行(模拟操作员)

给模型一份复杂的SOP手册,考察它能不能严格按照流程执行任务。

比如给一个无人机物流系统的详细API文档,让模型生成操作代码。手册里写了什么能做、什么不能做,模型必须完全遵守。

这考验的是「长链条的执行纪律」——错一步,满盘皆输。

4. 经验发现(模拟科学家)

这是最难的。给模型一堆杂乱的实验数据,让它自己归纳出背后隐藏的规律。

比如给一组物理实验的观测结果,让模型发现其中的物理定律。

这是从「应用知识」到「发现知识」的跨越。

说实话,这个benchmark做得挺重的。500个复杂上下文、1899个任务、31607个验证标准。每个上下文平均对应63.2个验证条目,每个任务平均有16.6个评估标准。

为了保证模型不能靠预训练知识作弊,采用了「无污染」设计:所有上下文要么是完全虚构的(比如为虚构国家设计一套完整的法律体系),要么是对现有知识的修改(比如创建具有独特语法的新编程语言),要么是极其小众的长尾内容。

专家平均花了20小时来标注单个场景。51.1%的任务有序列依赖关系——后面的问题依赖前面问题的答案,不能跳着做。


研究团队做了验证:让GPT-5.1在不提供上下文的情况下尝试解答1000个随机任务,成功率只有0.9%。说明没有上下文,这些任务对模型来说几乎无解。

最惨的发现:模型不会归纳

测试结果挺残酷的。

模型

任务成功率

GPT-5.1 (high)

23.7%

Claude Opus 4.5

19.9%

Gemini 3 Pro

18.9%

DeepSeek-R1

16.6%

Llama 4 Maverick

12.9%

平均分17.2%。


而且,模型的错误很有规律。论文统计了三类主要错误:

  • 漏用上下文:55.3%

  • 误用上下文:61.5%

  • 格式不遵守:35.3%


论文里有个具体案例:Gemini 3 Pro被要求为一个无人机物流系统生成操作伪代码。系统文档提供了详细的API说明,用户的请求故意违反了安全协议。

Gemini的表现怎么样?

它正确地拒绝了非法请求——这是对的。但它没能生成完整的合规替代方案:它忽略了文档中明确要求的替代函数,也没有绑定任务中给出的具体参数。

换句话说,模型「知道什么不能做」,但「不知道应该怎么做」。它读了手册,但没学会手册。

更重要的发现是:在四类任务中,模型在「经验发现」(归纳)上的表现最差——任务成功率通常低于10%。

这个数字挺有意思的。

之前写DeepSeek的Engram论文时,我引用过博尔赫斯的短篇《博闻强记的富内斯》。富内斯能记住一切,但无法思考——因为思考需要抽象,需要忘记差异。

CL-Bench的发现正好是反过来的:模型能做总结(一种复述和组织),但不擅长归纳(需要建模和泛化)。

总结是「把已有的东西换个说法」,归纳是「从已有的东西发现新规律」。前者是压缩,后者是创造。

模型在前者上表现还行,在后者上一塌糊涂。

这个benchmark不是用来刷的

看到这个17.2%的平均分,你可能会想:那接下来各家肯定会卷这个分数吧?

但姚顺雨可能不这么想。

《晚点》有篇报道提到,姚顺雨在腾讯内部会上说,希望团队以后不要打榜,也不要盯着榜单做事。

这和他在《The Second Half》里的观点完全一致。他说过,当智能程度较低时,提升智能通常能提升效用。但现在不是了——我们需要重新设计评估框架,以推动真实应用突破。

这里有个更大的背景。

现在很多AI能力benchmark都被刷爆了。MMLU、HumanEval、各种考试,模型动辄90多分,早就超过人类水平了。但这些高分并没有转化成真实世界的价值——模型考试厉害,干活还是不行。

问题出在哪?可能不是模型不够强,而是我们问的问题不够对。

CL-Bench的思路是:与其在旧问题上继续卷分数,不如提出一个新的、正确的问题。用一个好的benchmark来驱动模型改进,而不是让模型去适应一个已经不再有区分度的benchmark。

这可能就是「下半场」的演进方式,咱就先别急着跑分了,而是先比比谁能提出更好的问题。

所以CL-Bench的意义不在于「又一个可以刷的榜单」,而在于「标记出了一个真正的能力短板」。

这个短板是什么?

论文最后一段写得很直接:

「只有当模型能够快速内化完全陌生的上下文,并精确地应用那些知识来解决问题时,人工智能才能超越知识库的限制,演变成真正的推理Agent。」

换句话说,现在的模型本质上还是「知识库的调用者」。它们能做的,是把预训练时学到的知识重新组合、输出。

但真正的Agent需要的是「从上下文中学习新知识」的能力。这个能力,现在的模型几乎没有。

往大了说:谁提供context,谁掌握主动权

论文的Discussion部分给了四条可能的改进方向:

  1. 训练数据要强上下文学习——在预训练阶段就加入需要从上下文学习的任务

  2. 更好的位置编码——让模型更好地理解上下文中的结构

  3. 更长的上下文窗口——但这只是必要条件,不是充分条件

  4. 新的注意力机制——让模型更有效地从长上下文中提取和应用知识

但我觉得更有意思的是论文里的一句话:

「一旦上下文学习能力变得可靠,人类将不再是主要的数据提供者,而是context提供者。竞争的焦点将从'谁能训练出更好的模型'转向'谁能为任务提供最丰富、最相关的context'。」

这个判断我觉得挺重要的。

现在的AI竞争主要在「模型层」——谁的模型更大、训练数据更多、效果更好。但如果context learning问题解决了,竞争焦点可能会转向「context层」。

谁拥有最好的专业知识库?谁能把这些知识组织成模型能学会的形式?谁能在对的时机提供对的context?

论文还提到一个更远的愿景:模型如何「记忆」,可能成为2026年的另一个核心主题。

现在的模型有个问题:学完就忘。你在一个session里教会它某个规则,关掉窗口,下次还得重新教。这在长期协作场景里是致命的。

说到这个,最近很火的Clawdbot(OpenClaw)就是个有意思的案例。很多人觉得它体验特别好——懂你、有人味、能长期使用、上下文不爆。其实核心就是他们在memory和上下文工程上做了大量工作。

但这是「工程层」的解决方案:通过更聪明的context管理、记忆压缩、检索增强来绕过模型本身的限制。

CL-Bench指向的是另一条路——「模型层」的改进。让模型本身学会从context中学习,而不是靠外部系统来补。这条路更难,但可能更本质。

长期来看,两条路可能都需要。但如果模型层的context learning能力上来了,工程层的很多workaround可能就不需要那么复杂了。

最后

回到开头。

2025年4月,姚顺雨写了一篇博客,说AI下半场的重心是「定义问题」和「设计评估」。

2026年2月,他交出了第一个具体的答案:一个平均分只有17.2%的benchmark,精确地标记出了模型在「上下文学习」上的短板。

这个benchmark某种程度上算是一个提醒:我们以为模型已经很强了,但在这个能力上,它们还差得很远。

姚顺雨在入职腾讯之前说过一句话:「真正决定模型价值的,不是它能在benchmark上刷多高的分,而是它能不能解决真实世界的问题。」

CL-Bench算是这句话的一个注脚。

从博客到论文,从理念到落地,50天时间。

这可能就是腾讯看中他的原因之一,不只是会写论文,更重要的是知道该写什么论文。这个时代正在奖励提出正确问题的人。

参考资料

  • CL-Bench论文:https://arxiv.org/abs/2602.03587

  • CL-Bench代码与数据:https://github.com/Tencent-Hunyuan/CL-bench

  • 姚顺雨《The Second Half》:https://ysymyth.github.io/The-Second-Half/

  • 腾讯混元技术博客:https://hy.tencent.com/research

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16-14!陈熠3-0零封泰国一姐,张本智和首秀大捷 国乒豪夺12连胜

16-14!陈熠3-0零封泰国一姐,张本智和首秀大捷 国乒豪夺12连胜

好乒乓
2026-02-05 01:57:40
深圳二手房挂盘量破8.6万套:过年不回家,就等那一声炮响

深圳二手房挂盘量破8.6万套:过年不回家,就等那一声炮响

童童聊娱乐啊
2026-02-05 03:43:09
笑死!给宠物取名字一定要慎重,网友:我喊的时候路人以为我疯了

笑死!给宠物取名字一定要慎重,网友:我喊的时候路人以为我疯了

另子维爱读史
2026-02-04 23:11:29
中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

柳先说
2026-02-03 17:12:14
沈佳妮之前就特直白地说过:“好多人都知道我老公朱亚文风度翩翩

沈佳妮之前就特直白地说过:“好多人都知道我老公朱亚文风度翩翩

小光侃娱乐
2026-02-03 13:25:03
这位阿姨完全拿捏了黑色系高级感穿搭的精髓

这位阿姨完全拿捏了黑色系高级感穿搭的精髓

美女穿搭分享
2026-01-15 11:09:49
贵阳男子花40多万买理想SUV,开了没多久三个车门饰板全变色!4S店回应

贵阳男子花40多万买理想SUV,开了没多久三个车门饰板全变色!4S店回应

潇湘晨报
2026-02-03 18:01:28
国家队停止卖出A股,慢牛继续!

国家队停止卖出A股,慢牛继续!

金牛远望号
2026-02-04 20:34:29
梅婷:拍父母爱情,片酬300万,郭涛只有8.8万。44集,一集两千块

梅婷:拍父母爱情,片酬300万,郭涛只有8.8万。44集,一集两千块

南权先生
2026-02-04 16:01:47
刘虎的乐观

刘虎的乐观

城市的地得
2026-02-03 10:20:44
“马尔福”成中国马年吉祥物,本尊和他老家媒体都在转……

“马尔福”成中国马年吉祥物,本尊和他老家媒体都在转……

观察者网
2026-02-04 20:13:05
17死249伤!屡劝不听,滞留北海道旅客喊话祖国包机接人!

17死249伤!屡劝不听,滞留北海道旅客喊话祖国包机接人!

阅微札记
2026-02-04 19:30:18
央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

梦醉为红颜一笑
2026-02-02 06:12:05
路威:勇士队斯蒂芬库里有望创造NBA历史,在球馆外获赠多座雕像

路威:勇士队斯蒂芬库里有望创造NBA历史,在球馆外获赠多座雕像

好火子
2026-02-05 04:22:32
权威人工智能专业前三:南大浙大哈工大,清华仅排第十前十名完整榜单公布请速看详解

权威人工智能专业前三:南大浙大哈工大,清华仅排第十前十名完整榜单公布请速看详解

呼呼历史论
2026-02-04 14:44:40
4名蒙面人切断监控闯入,卡扎菲儿子家中被杀:激烈交火,但寡不敌众!他毕业于伦敦政经,曾被视为“接班人”

4名蒙面人切断监控闯入,卡扎菲儿子家中被杀:激烈交火,但寡不敌众!他毕业于伦敦政经,曾被视为“接班人”

每日经济新闻
2026-02-04 19:54:05
江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

桌子的生活观
2026-02-02 12:33:58
“海后”金晨的危机:被女大佬压制,姐弟恋不断,肇事逃逸

“海后”金晨的危机:被女大佬压制,姐弟恋不断,肇事逃逸

红大娘娱乐
2026-02-04 20:48:47
老人用筷子蘸酒喂5月龄宝宝,导致其肝损伤,接近肝衰竭

老人用筷子蘸酒喂5月龄宝宝,导致其肝损伤,接近肝衰竭

观威海
2026-02-04 09:06:09
大结局要来了,30枚导弹击中,43架大轰在远东集结,普京不想拖了

大结局要来了,30枚导弹击中,43架大轰在远东集结,普京不想拖了

音乐时光的娱乐
2026-02-05 05:29:34
2026-02-05 06:40:49
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
133文章数 60关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

本地
房产
健康
数码
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

耳石症分类型,症状大不同

数码要闻

vivo联合中国联通推出“eSIM手表尝鲜季”活动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版