刚刚，腾讯姚顺雨署名首篇论文发布，「下半场」先搞上下文学习|编程|语法|新论文|知名企业|context

分享至

机器之心编辑部

不久前在 AGI-Next 前沿峰会上，姚顺雨曾分享过一个核心观点：模型想要迈向高价值应用，核心瓶颈就在于能否「用好上下文（Context）」。

这与最近 OpenAI Jiayi Weng 在访谈中的看法不谋而合。Jiayi Weng 认为，上下文决定了模型和人类认知的边界。只要信息足够对等，普通人大概也能在 OpenAI 胜任工作，人和人的差距往往只是源于信息的不对称。

而近日，混元团队和复旦联合团队发布了首篇论文《CL-bench》，在「重视上下文」的基础上又往前推了一大步。

值得一提的是，这也是姚顺雨加入腾讯后首次署名的研究论文。

论文题目：CL-bench: A Benchmark for Context Learning
项目主页：www.clbench.com

论文证实了一个更棘手的问题：即便抹平了上下文带来的信息差，模型也未必能解决问题。这说明模型在上下文利用上，依然存在显著的能力短板。

具体来说，作者认为上下文「给到位了」并不等同于任务就能「做对」。这中间考验的是模型的学习能力：就像两个学习天赋不同的人，读的是同一本武功秘籍，有人能瞬息间领悟招式精髓，有人却始终不得要领。

这种差异的本质在于模型的上下文学习能力不同。如果模型缺乏从上下文中学习新知识、掌握新技能的能力，哪怕解决任务所需的逻辑和范例都近在咫尺，它也依然无从下手。

本文将结合腾讯混元官网首次发表的技术博客《Learning from context is harder than we thought》的中文版，聊聊在上下文学习这件事上，模型面对的真实困境。

博客链接：https://hy.tencent.com/research

从上下文中学习，远比我们想象的要难

我们需要 AI 成为「上下文学习者」（Context learners）

过去几年，大语言模型的进化速度快得令人惊叹。如今的前沿模型，已经是顶级的「做题家」：它们能解开奥数级别的难题，能推演复杂的编程逻辑，甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。

然而，这些耀眼的成绩单可能掩盖了一个真相：能在考场拿满分的学生，未必能胜任真实世界的工作。

回看我们人类的日常工作：开发者扫过从未见过的工具文档，就能立刻开始调试代码；玩家拿起新游戏的规则书，在实战中边玩边学；科学家从复杂的实验日志中筛选数据，推导出新的结论和定律。我们发现在这些场景中，人类并不只依赖多年前学到的「死知识」，而是在实时地从眼前的上下文中学习。

三个人类日常生活和工作场景的例子。这三个例子分别为：（1）面对 SkyNet 无人机 SDK 文档 (~70K 字)，将自然语言所表达的飞行请求转成安全、合规的 SDK 伪代码；（2）直接上手玩一款游戏：给定一款新游戏的完整规则 (~15K 字)，分析隐藏房间场景并给出可能结果；（3）分析 300 份原始实验日志，验证数据、推导关系式并估计共振常数。

然而，今天的语言模型并非如此。它们主要依赖「参数化知识」—— 即在预训练阶段被压缩进模型权重里的静态记忆。在推理时，模型更多是在调用这些封存的内部知识，而不是主动从当前输入的新信息中汲取营养。

这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的：我们优化出的模型擅长对自己「已知」的事物进行推理，但用户需要的，却是让模型解决那些依赖于杂乱、动态变化的上下文的任务。

简而言之：我们造出了依赖「过去」的参数推理者，但世界需要的是能吸收「当下」环境的上下文学习者。要弥合这一差距，我们必须从根本上改变模型的优化方向。

语言模型的范式转变。

CL-bench: 衡量模型的上下文学习能力

为了衡量现有模型距离真正的「上下文学习者」还有多远，我们构建了CL-bench。这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。

CL-bench 包含由资深领域专家精心制作的 500 个复杂上下文、1899 个任务和 31607 个验证标准。CL-bench 只包含一个简单但苛刻的要求：解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识，并正确应用。

模型需要学习的知识非常广泛。它包括新的领域知识、不熟悉的规则系统、复杂的产品工作流，甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的，要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。因此，模型无法通过回忆静态的参数化知识来解决任务，都要求模型从提供的上下文进行学习并应用。

具体来说，CL-bench 涵盖了四种广泛的现实世界上下文学习场景：

CL-bench 的上下文分类体系。

领域知识推理：上下文提供特定的领域知识（例如虚构的法律体系、创新的金融工具或小众专业知识）。模型需要利用这些知识来推理并解决具体问题。
规则系统应用：上下文提供新定义的正式系统（例如新的游戏机制、数学形式体系、编程语法或技术标准）。模型必须理解并应用这些规则来执行任务。
程序性任务执行：上下文提供复杂的过程系统（例如工作流、产品手册和操作指南）。模型必须理解并应用这些程序性信息来完成任务。
经验发现与模拟：上下文提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同，这一类专注于归纳推理，也是最具挑战性的。模型必须从数据中发现潜在的定律或结论，并应用它们来解决任务。

CL-bench 示例。解决这些任务要求语言模型从提供的上下文中学习。图中这四个案例分别是：（1）在一部长达 2.3 万字、刚刚生效的新法律下判一起真实纠纷；（2）基于一门新设计的教育编程语言规范，实现一个带有时间条件终止的周期性程序；（3）在一套从未见过的编程框架中执行代码；（4）在给定技术规格和长期环境政策情景的条件下，模拟关键技术金属的可持续全球供应。

这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务，能充分衡量模型的上下文学习能力。关于 CL-bench 的更多细节，请参阅我们的论文 [1]。

CL-bench 的设计原则和特性

CL-bench 围绕一个简单但严格的设计原则构建：每个任务都必须要求从上下文中学习新知识。CL-bench 中的每个上下文都是完全自包含（Self-contained）的。解决任务所需的所有信息都显式地提供在上下文本身之中：不需要外部检索，也不允许隐藏假设。

解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。

为了确保性能真正反映上下文学习，而不是记忆或数据泄露，CL-bench 采用了无污染（Contamination-free）设计：

虚构创作：专家创作完全虚构的内容，例如为虚构国家设计一套完整的法律体系（包括新颖的判例和法律原则），或创建具有独特语法和语义的新编程语言。
现有内容的修改：专家修改现实世界的内容以创建变体，例如更改历史事件、改变科学和数学定义，或修改技术文档和标准。
整合小众和新兴内容：专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容，如前沿研究发现、新发布的产品手册或技术文档，以及来自专门领域的特定知识。

在不提供任何上下文的情况下，最先进的模型GPT-5.1 (High)仅能解决不到 1%的任务。这有力地证明了数据是无污染的，模型若不从上下文中学习，几乎完全无法解决这些任务。

此外，CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖，意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言，领域专家花费约20 小时标注每个上下文，以确保任务构建的质量和深度。

CL-bench 中的每个任务都是完全可验证的。平均而言，每个上下文关联63.2个验证标准，每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估，确保了评估的全面性。

部分实验发现

我们在 CL-bench 上评估了十个最先进的语言模型。结果揭示了清晰且一致的差距。

表：十个前沿模型在 CL-bench 上的任务解决率。所有模型均在推理模式下进行评估，结果报告为三次运行的平均值 ± 标准差 (%)。

平均而言，模型仅解决了17.2%的任务。即便是表现最好的模型GPT-5.1 (High)，也仅达到了23.7%。换句话说，尽管上下文中拥有解决每个任务所需的全部信息，模型在绝大多数任务上都失败了。这表明当前的 SOTA 模型几乎不会从上下文中学习。

还有几个额外的现象值得注意：

忽略或误用上下文是导致失败的主要原因。许多错误并非源于信息缺失，而是源于模型忽视了上下文中的关键细节，或错误地应用了它们。在许多情况下，模型只会利用预训练学习到的静态知识来解决任务，即使上下文明确定义了新的规则、概念或程序，模型也不会学习和利用。

表：各模型错误类型的分布（因为一个 solutions 可能有多种错误原因，所以每行错误率总和大于 100%）。

长上下文推理和指令遵循是必要的，但不是充分条件。案例分析表明，那些难以跨长上下文追踪依赖关系或难以精确遵循约束的模型，往往表现得更差。然而，即使是能够处理长输入并可靠遵循指令的模型，仍然在许多任务上失败。上下文学习需要的能力，远不止长上下文理解和指令遵循能力。
从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据 context 中明确给出的规则和流程进行应用，而经验发现和环境模拟类任务则要求归纳推理 —— 从数据中总结规律或在虚拟环境中探索。模型在这类任务上的表现明显较差，任务解决率通常低于 10%，且结果波动大。这表明发现规律远比应用规则更具挑战性。

GPT-5.1 在高 / 低推理强度设置下，各子类别表现对比。

更高的推理强度通常能提升 context 学习效果。对部分模型来说，增加推理强度可以改善表现，使模型更深入地理解复杂 context 。例如，GPT-5.1 在管理类和实验数据类任务上的表现提升约 6%。但其他模型提升有限甚至可能下降，说明单靠更多推理并不足够，模型还必须能够正确吸收和组织 context 信息。

不同输入长度下模型上下文学习表现的变化趋势。（不同 context 下模型的表现变化呈现相似趋势。）

Context 学习的难度与 context 长度相关，但短 context 也可能很复杂。较长的 context 通常让所有模型的任务更难，这验证了长 context 处理仍是关键瓶颈。然而，即使是短 context ，如果包含信息密集、规则隐含、依赖复杂或约束严格的内容，也依然很具挑战性，说明 context 学习的难度不仅仅来源于长度，也来自于其复杂度。

更多发现请参见我们的论文 [1]。综上所述，CL-bench 揭示了一个不能被忽视的现象：当今的前沿语言模型还仍然不会利用上下文，从上下文中学习。

CL-bench 充分解释了语言模型在真实场景中为什么经常出错：即使有了上下文工程，给模型准备好了所需的上下文，模型也会失败。如果模型不能真正从中学习，仅仅提供上下文是不够的。上下文学习作为一项模型基础的学习能力，很大程度上被忽视了。

展望未来

如果上下文学习显著提升，人类在 AI 系统中的角色将发生变化：我们不再是主要的数据提供者（training data provider），而变成了 context 提供者（context provider）。竞争的焦点将从 “谁能把模型训练得更好”，转向 “谁能为任务提供最丰富、最相关的 context ”。

但其实这里还有一个挑战。即便上下文学习足够强大，它目前依然是临时性的（Ephemeral）：模型的上下文窗口一旦清空，学到的知识随之消失。因此，我们还要关注如何让从上下文中习得的知识持久化？这种知识不仅是事实，还包括能帮助模型跨任务迁移的技能、经验和模式等。

记忆巩固是语言模型通过上下文学习经验的关键

因此，如何记忆很可能成为 2026 年的另一个核心主题。要充分发挥语言模型的潜力，可能需要新的架构、新的优化方式来决定「该保留什么」。

一旦上下文学习与记忆变得可靠，模型或许就能实现自主学习：它们将自主准备上下文，从中学习并自我巩固。

这听上去多么令人兴奋！但当下我们的目标很明确：让「上下文学习」真正走向现实！

写于 2026 年 1 月，正值新年来临之际。

[1] CL-bench: A Benchmark for Context Learning

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.