网易首页 > 网易号 > 正文 申请入驻

姚顺雨腾讯首研成果:构建CL-bench、提出大模型新方向

0
分享至




“即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。”

公司情报专家《财经涂鸦》获悉,2月3日,腾讯混元官网技术博客(Tencent HY Research)发表名为《从上下文中学习,远比我们想象的要难》的文章,系统介绍了腾讯混元团队联合复旦大学的一项新研究。

这是姚顺雨加入腾讯担任首席AI科学家后团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验,呈现创新思路与技术洞察。

过去几年,大语言模型快速进化,如今的前沿模型,已经是顶级的“做题家”:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。然而,在面临真实世界的任务时,模型表现还有待提升。

回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。这些场景中,人类并不只依赖多年前学到的“死知识”,而是在实时地从眼前的上下文(Context)中学习。

在这篇论文里,腾讯混元和复旦大学联合研究团队提到,要让大模型学会“从上下文中学习”,远比我们想象的要难。并且,即便抹平了上下文带来的信息差,模型也未必能解决问题,这说明模型在上下文利用上,依然存在显著的能力短板。

为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench,这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。CL-bench包含由资深领域专家精心制作的500个复杂上下文、1,899个任务和31,607个验证标准。

CL-bench只包含一个简单但苛刻的要求:解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。

通过实验,论文发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2% ,也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。

这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。

官方技术博客还提到,如果模型的上下文学习能力能像之前其他能力那样被提升上去,人类在AI系统中的角色将发生转变:我们不再是主要的数据提供者(training data provider),而变成了上下文提供者(context provider)。未来,竞争的焦点将从“谁能把模型训练得更好”,转向“谁能为任务提供最丰富、最相关的上下文”。

研究团队也强调,模型如何记忆很可能成为2026年大模型发展的另一个核心主题,并且,一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习,它们将自主准备上下文,从中学习并自我巩固。

在加入腾讯之前,姚顺雨曾经发布过一篇名为《The Second Half》的博客,重点提到大模型下半场的重头戏是“评估”,此后在多次公开讲话中,他也提到了打造实用模型的目标,这可以视为他在腾讯混元团队的重点研发思路之一。本次CL-bench的推出,将成为模型上文学习能力评估的主要基准,为大模型学习更多解决现实世界难题提供帮助。

作者:苏打

编辑:tuya

出品:财经涂鸦(ID:caijingtuya)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁愿住在出租屋,也不愿意回老家过年?网友:女生出嫁,就没家了!

宁愿住在出租屋,也不愿意回老家过年?网友:女生出嫁,就没家了!

一桶浆糊要一统江湖
2026-02-03 20:25:03
一场虚荣的“抓周宴”被群嘲,网友:普通家庭,才靠许愿逃避现实

一场虚荣的“抓周宴”被群嘲,网友:普通家庭,才靠许愿逃避现实

妍妍教育日记
2026-01-16 17:07:38
日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本窗
2026-02-02 17:28:30
大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

映射生活的身影
2025-12-20 03:39:27
向太回应方媛被骂,手戴金疙瘩眼神迷离,称生三胎是为爱不是捞女

向太回应方媛被骂,手戴金疙瘩眼神迷离,称生三胎是为爱不是捞女

山野卢员外
2026-01-07 16:58:36
06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

温情邮局
2026-01-27 10:14:26
Uber:第四季度营收143.7亿美元 略高于市场预期

Uber:第四季度营收143.7亿美元 略高于市场预期

财联社
2026-02-04 20:00:23
70公斤稀土烧掉8300万!日本6000米深海豪赌,正把自己埋进泥里

70公斤稀土烧掉8300万!日本6000米深海豪赌,正把自己埋进泥里

白梦日记
2026-02-04 20:59:50
周星驰《女足》定档春节档?全是顶流阵容,张小斐球衣抢镜

周星驰《女足》定档春节档?全是顶流阵容,张小斐球衣抢镜

娱乐圈十三太保
2026-02-04 15:29:57
一个重庆知青兵的越战回忆:兵败如山

一个重庆知青兵的越战回忆:兵败如山

壹贰叁的壹
2024-05-09 10:06:28
成都在建第一高楼冲刺300米!

成都在建第一高楼冲刺300米!

GA环球建筑
2026-02-04 00:05:46
上合组织情况有变!特朗普通告全球:对中俄两国,已达到预期效果

上合组织情况有变!特朗普通告全球:对中俄两国,已达到预期效果

现代小青青慕慕
2026-02-04 12:16:39
国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

国家终于出手了!不仅是李梓萌被牵连,就连全红婵张文宏也没逃过

巧手晓厨娘
2025-12-26 21:34:40
马斯克:太空算力成本将“断崖式”下降,卫星产业ETF(159218)份额扩容152.46%,迭创历史新高

马斯克:太空算力成本将“断崖式”下降,卫星产业ETF(159218)份额扩容152.46%,迭创历史新高

金融界
2026-02-04 09:15:07
曼联准备下赛季英超争冠!省下百万工资招兵买马,拉爵欲扬眉吐气

曼联准备下赛季英超争冠!省下百万工资招兵买马,拉爵欲扬眉吐气

罗米的曼联博客
2026-02-04 07:08:15
意甲官方:因其球迷投掷烟花等行为,对国米罚款5万并特别警告

意甲官方:因其球迷投掷烟花等行为,对国米罚款5万并特别警告

懂球帝
2026-02-04 23:33:03
纪实:萝莉岛惊人丑闻!爱泼斯坦员工透露细节,无名氏36号竟是他

纪实:萝莉岛惊人丑闻!爱泼斯坦员工透露细节,无名氏36号竟是他

谈史论天地
2026-01-26 18:15:03
利物浦6000万镑签新星 世界杯冠军怒批冤大头交易

利物浦6000万镑签新星 世界杯冠军怒批冤大头交易

浮萍足球
2026-02-05 02:34:07
民主党人炸锅:好好好这么搞是吧,特朗普一家子都等着吧

民主党人炸锅:好好好这么搞是吧,特朗普一家子都等着吧

观察者网
2026-02-04 09:58:34
央妈“摸排”!结果出来了:全国能一次拿出40万元的家庭超想象

央妈“摸排”!结果出来了:全国能一次拿出40万元的家庭超想象

巢客HOME
2026-02-04 05:10:03
2026-02-05 04:04:49
财经涂鸦 incentive-icons
财经涂鸦
公司情报专家
4738文章数 8852关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

旅游
教育
亲子
公开课
军事航空

旅游要闻

“一次购票终身体验”解锁文旅转型新范式

教育要闻

数学提分,往往从复盘开始

亲子要闻

麻腮风疫苗到底要不要给孩子打?听听儿科医生怎么说

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版