姚顺雨腾讯首研成果：构建CL-bench、提出大模型新方向|cl|上下文|新论文|知名企业

姚顺雨腾讯首研成果：构建CL-bench、提出大模型新方向

2026-02-04 20:09:41　来源: 财经涂鸦

浙江举报

分享至

“即使是如今最强的语言模型，在上下文的利用方面仍然做得不好，甚至可以说是还不会利用上下文，从上下文中学习。”

公司情报专家《财经涂鸦》获悉，2月3日，腾讯混元官网技术博客（Tencent HY Research）发表名为《从上下文中学习，远比我们想象的要难》的文章，系统介绍了腾讯混元团队联合复旦大学的一项新研究。

这是姚顺雨加入腾讯担任首席AI科学家后团队首次发布研究成果，也是腾讯混元技术博客首次公开。这一博客的推出，旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验，呈现创新思路与技术洞察。

过去几年，大语言模型快速进化，如今的前沿模型，已经是顶级的“做题家”：它们能解开奥数级别的难题，能推演复杂的编程逻辑，甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。然而，在面临真实世界的任务时，模型表现还有待提升。

回看我们人类的日常工作：开发者扫过从未见过的工具文档，就能立刻开始调试代码；玩家拿起新游戏的规则书，在实战中边玩边学；科学家从复杂的实验日志中筛选数据，推导出新的结论和定律。这些场景中，人类并不只依赖多年前学到的“死知识”，而是在实时地从眼前的上下文（Context）中学习。

在这篇论文里，腾讯混元和复旦大学联合研究团队提到，要让大模型学会“从上下文中学习”，远比我们想象的要难。并且，即便抹平了上下文带来的信息差，模型也未必能解决问题，这说明模型在上下文利用上，依然存在显著的能力短板。

为了衡量现有模型距离真正的“上下文学习者”还有多远，研究团队构建了CL-bench，这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。CL-bench包含由资深领域专家精心制作的500个复杂上下文、1,899个任务和31,607个验证标准。

CL-bench只包含一个简单但苛刻的要求：解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识，并正确应用。

通过实验，论文发现，世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2% ，也就是说即使是如今最强的语言模型，在上下文的利用方面仍然做得不好，甚至可以说是还不会利用上下文，从上下文中学习。

这也为大语言模型后续的迭代指出了一个可能的方向，强化模型从上下文中进行学习的能力。

官方技术博客还提到，如果模型的上下文学习能力能像之前其他能力那样被提升上去，人类在AI系统中的角色将发生转变：我们不再是主要的数据提供者（training data provider），而变成了上下文提供者（context provider）。未来，竞争的焦点将从“谁能把模型训练得更好”，转向“谁能为任务提供最丰富、最相关的上下文”。

研究团队也强调，模型如何记忆很可能成为2026年大模型发展的另一个核心主题，并且，一旦上下文学习与记忆变得可靠，模型或许就能实现自主学习，它们将自主准备上下文，从中学习并自我巩固。

在加入腾讯之前，姚顺雨曾经发布过一篇名为《The Second Half》的博客，重点提到大模型下半场的重头戏是“评估”，此后在多次公开讲话中，他也提到了打造实用模型的目标，这可以视为他在腾讯混元团队的重点研发思路之一。本次CL-bench的推出，将成为模型上文学习能力评估的主要基准，为大模型学习更多解决现实世界难题提供帮助。

作者：苏打

编辑：tuya

出品：财经涂鸦（ID：caijingtuya）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.