网易首页 > 网易号 > 正文 申请入驻

姚顺雨的最新成果,才是腾讯发完 10 亿红包后决战 AI 的关键

0
分享至

还没有进入春节,各大厂商已经迫不及待了:前有元宝大派红包,马上千问就豪请奶茶——花不了多少钱,30 个小目标罢了。


预算在前面烧,基建在后面搭,毕竟等推广预算烧完,能做到多少用户留存,就要看产品本身了。这样一看,腾讯在下半年把前 OpenAI 研究员、清华姚班的天才少年姚顺雨挖到手,可谓计之长远。

执掌腾讯 AI 之后,近日姚顺雨终于发出了第一项署名研究,这是腾讯混元团队联合复旦大学发布的研究,把目光聚集到了上下文。这似乎是一个略显冷门的技术点,但研究的发现是能让所有日常都在玩 AI 的用户背脊一凉的:如果我们把大模型从「背书模式」切换到「现学现卖模式」,即使是目前地球上最强的 AI,得分率也只有惨淡的 23.7%。

这项研究远不止是一个技术圈的八卦,它直接揭示了为什么作为普通用户的你,经常觉得 AI 「听不懂人话」、「死脑筋」或者「胡说八道」。如果说有什么是 AI 的阿喀琉斯之踵,那上下文(Context)当如是。

上下文:AI 的灵魂

要理解这项研究的价值,我们需要先搞清楚大模型运作的两个基本阶段。

第一个阶段是预训练。在这个过程中,模型通过阅读互联网上浩如烟海的数据,记住了海量的知识和模式。这一点现在大家应该都不陌生了。这是 AI 知识储备的来源,也是它能够回答通用问题的基础。


但问题在于,预训练数据是静态的,它反映的是模型训练截止日期之前的世界。一旦脱离了这个范围,模型就会变得盲目——而真实世界是动态的。

这就来到第二个阶段,情境学习,也就是我们常说的上下文处理。当你把一段全新的、内部的、或者是极其复杂的规则文本发给 AI 时,你实际上是在要求它跳出预训练的记忆,根据眼前的信息进行实时推理和判断。

像什么呢?比如公司内部刚刚开完会之后的纪要,或者你玩的游戏有了新活动,这些知识从未在互联网上出现过,只能由你把规则、信息(即「上下文」)扔给 AI,让它根据这些新知识来回答问题。

这才是现实,互联网上并非应有尽有,模型对于上下文的学习能力可以说是非常重要,甚至可以说:上下文,就是 AI 的灵魂


如果 AI 记不住、或者理解错了上下文,它就会开始编造(幻觉),可能会根据它「记忆」里通用规则来回答——会议纪要里明明说行政部要负责下午茶,它却说是产品经理管这事儿。

这就是混元团队这次建设 CL-bench 在干的事情。他们构建了近 2000 个从未在互联网上公开过的、由专家精心构造的「全新情境」,有虚构的法律体系,新的编程语言语法等等。


根据 CL-bench 的排行榜,目前最先进的 GPT-5.1 (High) 模型的正确率仅为 23.7%,Claude Opus 4.5 约为 21.1%,而其他的模型大都在 10%-18% 之间徘徊。

这意味着,当我们要求 AI 「忘掉你以前学的,只看我发给你的这段话」时,它们大概率会搞砸。它们就像那些固执的学生,哪怕老师已经在黑板上写了「今天 1+1=3」,它还是会大声喊出「1+1=2」,因为新知识对它而言都「超纲」了。


CL-bench 的研究揭示了几个导致模型在情境学习中失败的深层原因,这些原因解释了为什么我们在使用 AI 时会感到它有时聪明、有时愚蠢。

最常见的翻车原因。模型在预训练里学到的东西太「根深蒂固」了。当模型接收到新的上下文时,它往往无法有效抑制住预训练数据中那些根深蒂固的模式。

比如,在 CL-bench 的一个测试案例中,研究人员构建了一个虚构的软件开发包 Skynet SDK。虽然这只是个虚构的名字,但因为「Skynet(天网)」在 AI 的潜意识(预训练数据)里太出名了,模型可能会下意识地把《终结者》电影里的设定带入进来,从而无视说明文档里枯燥的代码规则。


另外,复杂逻辑的推演能力依然是目前技术的瓶颈——这点多少有些令人意外,都 2026 了,AI 处理超长文本不是早已经驾轻就熟吗?但实际上,虽然模型能吞下几万字,它并不一定能从数据海洋里面精准地捞出那一根针。研究发现,当提供的上下文非常长、逻辑非常复杂(比如复杂的逻辑推理链条、多轮的交互依赖)时,模型的表现会直线下降。

如果上下文仅仅是「知识检索」(比如从文档里找一个名字),现在的模型还凑合。但一旦涉及到「逻辑推理」,模型的解决率就暴跌。

为什么是腾讯来做?

CL-bench 是姚顺雨入主腾讯后,首次署名的研究成果。如果把它放到腾讯庞大的产品矩阵中去审视,就会发现「上下文学习」和这家互联网巨头自身业务逻辑之间的关系。


与其他更偏向搜索或通用生产力工具的科技公司不同,腾讯的根基深深扎根于「社交」与「内容」的土壤之中,而这两个领域对 AI 上下文能力的要求可谓极其苛刻。

想象一下微信或 QQ 的使用场景。这里产生的数据并非孤立的问答,而是连绵不断、高度碎片化的对话流——最新的元宝派就是例子。当用户试图在一个拥有数百条消息的群聊中让 AI 总结重点,或者在一段长达数月的私聊记录中寻找某个约定的细节时,AI 面临的挑战正是 CL-bench 所测试的极限:它必须在不依赖外部通用知识的前提下,精准地理解这段封闭对话中特有的语境、人际关系和隐含逻辑。


如果 AI 无法妥善处理这种高密度的上下文,它就无法真正融入十亿用户的社交链路,只能作为一个甚至会打断对话流畅度的累赘存在。

另外,腾讯在游戏与企业服务领域的布局,也决定了它对「情境学习」的渴求。游戏自不用说,各家都在探索 AI 如何根据即时的操作和游戏内的实时局势(即游戏上下文)做出反应,而不是机械地背诵预训练好的台词。

在企业微信和腾讯会议的场景中,用户需要的往往是基于特定会议纪要或私有文档的精准分析。在这些场景下,通用的预训练知识不仅无效,甚至可能因为「幻觉」而带来严重的误导。

「在场景中演满分的学生,未必能胜任真实世界的工种」—— 混元团队意识到了这一点,这也恰恰是对当下 AI 最好的注脚。对于坐拥海量应用场景的腾讯来说,一个能在复杂上下文中保持清醒、逻辑严密的模型,远比一个博学但只会死记硬背的模型,具有更大的商业价值和落地潜力。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女航天员刘洋,结婚8年不生孩子,首次升空前为丈夫留下2条遗言

女航天员刘洋,结婚8年不生孩子,首次升空前为丈夫留下2条遗言

明月清风阁
2026-02-05 11:50:05
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
春节前后,这3种鱼尽量少买,鱼贩子说:可能含有甲醛或重金属

春节前后,这3种鱼尽量少买,鱼贩子说:可能含有甲醛或重金属

阿龙美食记
2026-02-08 20:19:02
安德鲁前女友:爱泼斯坦没有死,而是被一辆车调包后,逃往以色列

安德鲁前女友:爱泼斯坦没有死,而是被一辆车调包后,逃往以色列

阿晪美食
2026-02-08 10:21:18
证监会重拳出击!A股,注意!

证监会重拳出击!A股,注意!

新浪财经
2026-02-08 14:47:39
我扒了扒王曼昱的收入

我扒了扒王曼昱的收入

小光侃娱乐
2026-02-08 18:35:06
破天一刀,切开两只小狗栩栩如生,出88万被拒,这石头令人想不通

破天一刀,切开两只小狗栩栩如生,出88万被拒,这石头令人想不通

名石故事
2026-02-07 02:01:15
被“篮球地狱”毁掉的天才!曾力压东契奇却备受打压,如今迎良机

被“篮球地狱”毁掉的天才!曾力压东契奇却备受打压,如今迎良机

阿浪的篮球故事
2026-02-08 16:10:08
2月8日俄乌:美俄联手向乌克兰发出最后通牒

2月8日俄乌:美俄联手向乌克兰发出最后通牒

山河路口
2026-02-08 18:40:01
汉人最伟大的巅峰之战!若此战失败,中国或将分裂成几十个小国

汉人最伟大的巅峰之战!若此战失败,中国或将分裂成几十个小国

千秋文化
2026-01-06 20:49:21
一离开大陆,国民党高层就送美国一句话!美方几十年没受过这种气

一离开大陆,国民党高层就送美国一句话!美方几十年没受过这种气

东极妙严
2026-02-07 13:45:20
演员石文中的耳朵

演员石文中的耳朵

花漾夜雨飘雪
2026-01-31 03:51:21
具俊晔庆祝结婚4周年,在大S墓碑前喝红酒吃蛋糕,埋头模样太痛苦

具俊晔庆祝结婚4周年,在大S墓碑前喝红酒吃蛋糕,埋头模样太痛苦

古希腊掌管月桂的神
2026-02-08 18:10:55
《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

诗词中国
2026-01-23 18:47:36
轰29+10!和哈登合作真好,阿伦赛后动情发声,阿特金森也摊牌了

轰29+10!和哈登合作真好,阿伦赛后动情发声,阿特金森也摊牌了

篮球看比赛
2026-02-08 20:18:30
CBA杯四强出炉半决赛对阵:上海vs山东 广厦vs山西 广东出局

CBA杯四强出炉半决赛对阵:上海vs山东 广厦vs山西 广东出局

醉卧浮生
2026-02-07 21:54:51
比肺癌还凶险,有人一个月就失去了生命,90%的不知道这个病

比肺癌还凶险,有人一个月就失去了生命,90%的不知道这个病

呼吸科大夫胡洋
2026-02-08 16:10:56
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
来了曼联!8000万英镑“银靴射手”空降红魔!主帅钦点4500万飞翼

来了曼联!8000万英镑“银靴射手”空降红魔!主帅钦点4500万飞翼

头狼追球
2026-02-08 11:38:53
2026-02-08 20:51:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6085文章数 26765关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

知名歌手凌晨5点挤公交车却被"赶下车" 真相让人意外

头条要闻

知名歌手凌晨5点挤公交车却被"赶下车" 真相让人意外

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

家居
艺术
教育
数码
旅游

家居要闻

现代轻奢 温馨治愈系

艺术要闻

何红舟油画作品选

教育要闻

二倍角,构造等腰三角形,初中中考几何压轴题必考题型

数码要闻

再次流下悔恨之泪:1.88元原道十周年纪念版耳机公布,限量8888条

旅游要闻

2026渭南春踏青系列文旅活动启动 全新“畅游渭南”旅游联票2月15日发售

无障碍浏览 进入关怀版