网易首页 > 网易号 > 正文 申请入驻

刚刚,腾讯姚顺雨署名首篇论文发布,「下半场」先搞上下文学习

0
分享至





机器之心编辑部

不久前在 AGI-Next 前沿峰会上,姚顺雨曾分享过一个核心观点:模型想要迈向高价值应用,核心瓶颈就在于能否「用好上下文(Context)」。

这与最近 OpenAI Jiayi Weng 在访谈中的看法不谋而合。Jiayi Weng 认为,上下文决定了模型和人类认知的边界。只要信息足够对等,普通人大概也能在 OpenAI 胜任工作,人和人的差距往往只是源于信息的不对称。

而近日,混元团队和复旦联合团队发布了首篇论文《CL-bench》,在「重视上下文」的基础上又往前推了一大步。

值得一提的是,这也是姚顺雨加入腾讯后首次署名的研究论文。



  • 论文题目:CL-bench: A Benchmark for Context Learning
  • 项目主页:www.clbench.com

论文证实了一个更棘手的问题:即便抹平了上下文带来的信息差,模型也未必能解决问题。这说明模型在上下文利用上,依然存在显著的能力短板。

具体来说,作者认为上下文「给到位了」并不等同于任务就能「做对」。这中间考验的是模型的学习能力:就像两个学习天赋不同的人,读的是同一本武功秘籍,有人能瞬息间领悟招式精髓,有人却始终不得要领。

这种差异的本质在于模型的上下文学习能力不同。 如果模型缺乏从上下文中学习新知识、掌握新技能的能力,哪怕解决任务所需的逻辑和范例都近在咫尺,它也依然无从下手。

本文将结合腾讯混元官网首次发表的技术博客《Learning from context is harder than we thought》的中文版,聊聊在上下文学习这件事上,模型面对的真实困境。

  • 博客链接:https://hy.tencent.com/research

从上下文中学习,远比我们想象的要难

我们需要 AI 成为「上下文学习者」(Context learners)

过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的「做题家」:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。

然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作。

回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的「死知识」,而是在实时地从眼前的上下文中学习。



三个人类日常生活和工作场景的例子。这三个例子分别为:(1)面对 SkyNet 无人机 SDK 文档 (~70K 字),将自然语言所表达的飞行请求转成安全、合规的 SDK 伪代码; (2)直接上手玩一款游戏:给定一款新游戏的完整规则 (~15K 字),分析隐藏房间场景并给出可能结果;(3)分析 300 份原始实验日志,验证数据、推导关系式并估计共振常数。

然而,今天的语言模型并非如此。它们主要依赖「参数化知识」—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己「已知」的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的上下文的任务。

简而言之:我们造出了依赖「过去」的参数推理者,但世界需要的是能吸收「当下」环境的上下文学习者。要弥合这一差距,我们必须从根本上改变模型的优化方向。



语言模型的范式转变。

CL-bench: 衡量模型的上下文学习能力

为了衡量现有模型距离真正的「上下文学习者」还有多远,我们构建了CL-bench。这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。

CL-bench 包含由资深领域专家精心制作的 500 个复杂上下文、1899 个任务和 31607 个验证标准。CL-bench 只包含一个简单但苛刻的要求:解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。

模型需要学习的知识非常广泛。它包括新的领域知识、不熟悉的规则系统、复杂的产品工作流,甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的,要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。因此,模型无法通过回忆静态的参数化知识来解决任务,都要求模型从提供的上下文进行学习并应用。

具体来说,CL-bench 涵盖了四种广泛的现实世界上下文学习场景:



CL-bench 的上下文分类体系。

  1. 领域知识推理:上下文提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。
  2. 规则系统应用:上下文提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。
  3. 程序性任务执行:上下文提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。
  4. 经验发现与模拟:上下文提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。



CL-bench 示例。解决这些任务要求语言模型从提供的上下文中学习。图中这四个案例分别是:(1)在一部长达 2.3 万字、刚刚生效的新法律下判一起真实纠纷;(2)基于一门新设计的教育编程语言规范,实现一个带有时间条件终止的周期性程序;(3)在一套从未见过的编程框架中执行代码;(4)在给定技术规格和长期环境政策情景的条件下,模拟关键技术金属的可持续全球供应。

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的上下文学习能力。关于 CL-bench 的更多细节,请参阅我们的论文 [1]。

CL-bench 的设计原则和特性

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从上下文中学习新知识。CL-bench 中的每个上下文都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在上下文本身之中:不需要外部检索,也不允许隐藏假设。



解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。

为了确保性能真正反映上下文学习,而不是记忆或数据泄露,CL-bench 采用了无污染(Contamination-free)设计:

  1. 虚构创作:专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。
  2. 现有内容的修改:专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。
  3. 整合小众和新兴内容:专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。

在不提供任何上下文的情况下,最先进的模型GPT-5.1 (High)仅能解决不到 1%的任务。这有力地证明了数据是无污染的,模型若不从上下文中学习,几乎完全无法解决这些任务。

此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约20 小时标注每个上下文,以确保任务构建的质量和深度。

CL-bench 中的每个任务都是完全可验证的。平均而言,每个上下文关联63.2个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。

部分实验发现

我们在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。



表:十个前沿模型在 CL-bench 上的任务解决率。所有模型均在推理模式下进行评估,结果报告为三次运行的平均值 ± 标准差 (%)。

平均而言,模型仅解决了17.2%的任务。即便是表现最好的模型GPT-5.1 (High),也仅达到了23.7%。换句话说,尽管上下文中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从上下文中学习。

还有几个额外的现象值得注意:

  • 忽略或误用上下文是导致失败的主要原因。许多错误并非源于信息缺失,而是源于模型忽视了上下文中的关键细节,或错误地应用了它们。在许多情况下,模型只会利用预训练学习到的静态知识来解决任务,即使上下文明确定义了新的规则、概念或程序,模型也不会学习和利用。



表:各模型错误类型的分布(因为一个 solutions 可能有多种错误原因,所以每行错误率总和大于 100%)。

  • 长上下文推理和指令遵循是必要的,但不是充分条件。案例分析表明,那些难以跨长上下文追踪依赖关系或难以精确遵循约束的模型,往往表现得更差。然而,即使是能够处理长输入并可靠遵循指令的模型,仍然在许多任务上失败。上下文学习需要的能力,远不止长上下文理解和指令遵循能力。
  • 从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据 context 中明确给出的规则和流程进行应用,而经验发现和环境模拟类任务则要求 归纳推理 —— 从数据中总结规律或在虚拟环境中探索。模型在这类任务上的表现明显较差,任务解决率通常低于 10%,且结果波动大。这表明发现规律远比应用规则更具挑战性。



GPT-5.1 在高 / 低推理强度设置下,各子类别表现对比。

  • 更高的推理强度通常能提升 context 学习效果。对部分模型来说,增加 推理强度 可以改善表现,使模型更深入地理解复杂 context 。例如,GPT-5.1 在管理类和实验数据类任务上的表现提升约 6%。但其他模型提升有限甚至可能下降,说明单靠更多推理并不足够,模型还必须能够正确吸收和组织 context 信息。



不同输入长度下模型上下文学习表现的变化趋势。(不同 context 下模型的表现变化呈现相似趋势。)

  • Context 学习的难度与 context 长度相关,但短 context 也可能很复杂。较长的 context 通常让所有模型的任务更难,这验证了长 context 处理仍是关键瓶颈。然而,即使是短 context ,如果包含信息密集、规则隐含、依赖复杂或约束严格的内容,也依然很具挑战性,说明 context 学习的难度不仅仅来源于长度,也来自于其复杂度。

更多发现请参见我们的论文 [1]。综上所述,CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用上下文,从上下文中学习。

CL-bench 充分解释了语言模型在真实场景中为什么经常出错:即使有了上下文工程,给模型准备好了所需的上下文,模型也会失败。如果模型不能真正从中学习,仅仅提供上下文是不够的。上下文学习作为一项模型基础的学习能力,很大程度上被忽视了。

展望未来

如果上下文学习显著提升,人类在 AI 系统中的角色将发生变化:我们不再是主要的数据提供者(training data provider),而变成了 context 提供者(context provider)。竞争的焦点将从 “谁能把模型训练得更好”,转向 “谁能为任务提供最丰富、最相关的 context ”。

但其实这里还有一个挑战。即便上下文学习足够强大,它目前依然是临时性的(Ephemeral):模型的上下文窗口一旦清空,学到的知识随之消失。因此,我们还要关注如何让从上下文中习得的知识持久化?这种知识不仅是事实,还包括能帮助模型跨任务迁移的技能、经验和模式等。



记忆巩固是语言模型通过上下文学习经验的关键

因此,如何记忆很可能成为 2026 年的另一个核心主题。 要充分发挥语言模型的潜力,可能需要新的架构、新的优化方式来决定「该保留什么」。

一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习:它们将自主准备上下文,从中学习并自我巩固。

这听上去多么令人兴奋!但当下我们的目标很明确:让「上下文学习」真正走向现实!

写于 2026 年 1 月,正值新年来临之际。

[1] CL-bench: A Benchmark for Context Learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网络直播手术暴露女患者隐私部位,陕西中医药大学附属医院致歉

网络直播手术暴露女患者隐私部位,陕西中医药大学附属医院致歉

界面新闻
2026-02-03 18:48:59
彻底破防!网传宁波男子花50万彩礼结婚,妻子新婚出轨被捉奸在床

彻底破防!网传宁波男子花50万彩礼结婚,妻子新婚出轨被捉奸在床

火山诗话
2026-02-03 06:51:09
我娶了县长痴呆25年的女儿,晚上我准备打地铺,她说:不许睡地上

我娶了县长痴呆25年的女儿,晚上我准备打地铺,她说:不许睡地上

千秋文化
2026-01-05 22:15:53
贾静雯在线求网友劝梧桐妹穿太暴露,但更严重的应该是未成年就发育过头的下巴吧?

贾静雯在线求网友劝梧桐妹穿太暴露,但更严重的应该是未成年就发育过头的下巴吧?

黎兜兜
2026-02-04 12:11:21
联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

顾史
2026-02-03 02:24:14
遭19分逆转6连败!杨瀚森DNP,开拓者125-130不敌太阳

遭19分逆转6连败!杨瀚森DNP,开拓者125-130不敌太阳

全景体育V
2026-02-04 14:39:33
人民日报2次点名霍启刚,一个特殊称呼,让香港四大家族沉默了

人民日报2次点名霍启刚,一个特殊称呼,让香港四大家族沉默了

麦芽是个小趴菜
2025-12-26 00:42:49
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
搭伙只过了两天就分手,阿姨:非得跟我睡一个屋,大爷:真能装

搭伙只过了两天就分手,阿姨:非得跟我睡一个屋,大爷:真能装

烙任情感
2026-02-03 13:34:56
随着哈登与加兰互换东家加盟骑士,对于他的未来无疑是一场豪赌!

随着哈登与加兰互换东家加盟骑士,对于他的未来无疑是一场豪赌!

田先生篮球
2026-02-04 14:34:33
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
中超新里程碑:上海申花官宣日本国脚远藤航加盟,签约两年

中超新里程碑:上海申花官宣日本国脚远藤航加盟,签约两年

桃叶渡春
2026-02-04 13:44:44
马斯克彻底搞定大圆柱电池!发布五年终落地,独家专利破解量产难题

马斯克彻底搞定大圆柱电池!发布五年终落地,独家专利破解量产难题

车东西
2026-02-02 18:52:55
不用拜佛的3个生肖,出生就有菩萨保佑,一辈子平安又富贵

不用拜佛的3个生肖,出生就有菩萨保佑,一辈子平安又富贵

千秋文化
2025-12-04 10:24:57
她是中国年纪最小的军官,6岁被特招入伍,皆因身怀一项特殊技能

她是中国年纪最小的军官,6岁被特招入伍,皆因身怀一项特殊技能

寄史言志
2026-01-28 17:52:07
大连发生一起道路交通事故已致5人死亡

大连发生一起道路交通事故已致5人死亡

环球网资讯
2026-02-03 17:38:07
让Gemini操控安卓手机,谷歌“屏幕自动化”功能细节曝光

让Gemini操控安卓手机,谷歌“屏幕自动化”功能细节曝光

IT之家
2026-02-04 14:09:09
哈登否认主动申请交易:向快船管理层表达感激之情 期待联手米切尔冲冠

哈登否认主动申请交易:向快船管理层表达感激之情 期待联手米切尔冲冠

海阔山遥YAO
2026-02-04 13:43:06
王欣瑜爆大冷拒握手震动舆论,网友:这件事力挺“赛右”姐妹

王欣瑜爆大冷拒握手震动舆论,网友:这件事力挺“赛右”姐妹

网球之家
2026-02-03 23:43:55
刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

刘强东父亲穿的羽绒服价格被扒,儿子这么有钱,不很正常吗?

我心纵横天地间
2026-02-03 22:44:27
2026-02-04 15:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12249文章数 142562关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

患者花费超14万手术 副主任医师把价值10万新器材扔了

头条要闻

患者花费超14万手术 副主任医师把价值10万新器材扔了

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

艺术
时尚
教育
手机
军事航空

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

状态比10年前更好,她到底做对了什么?

教育要闻

线段转化,最小值问题,初中中考几何压轴题

手机要闻

曝华为Pura 90系列影像旗舰2亿超大底单潜望镜基本确定

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版