网易首页 > 网易号 > 正文 申请入驻

【中文配音&详解】Ilya:Scaling 时代结束了

0
分享至

Ilya Sutskever 昨天接受了 Dwarkesh Patel 的播客采访
这是他离开 OpenAI、创办 SSI 之后,最深度的一次公开发言

为了方便大家路上听,这里我做了一份中文配音版,使用了大橘子的 的 API

当然,如果你想看英文原版,可以访问这个地址
https://www.dwarkesh.com/p/ilya-sutskever-2


核心判断只有一个:
AI 行业正在从「扩展时代」回归「研究时代」,从 Age of ScalingAge of Research

2020 到 2025 年,大家发现只要把数据和算力堆上去,效果就变好,于是所有人都只做一个动作:加倍、再加倍

但现在,单纯靠堆预训练数据,已经快到头了
现在的问题不是「要扩大多少倍」,而是「要寻找新方法」


Ilya 与 Dwarkesh 的这次对话,信息密度极高 矛盾的现实:模型的"参差不齐"

Ilya 首先聊了一个让所有人困惑的现象:
模型能力的参差不齐(Model Jaggedness)

你看那些评测数据,你会惊叹:题这么难,但模型都能做对
但...现实中,好像没起什么作用

所以...为啥呢?模型一方面能通过高难度测试,另一方面却总是犯蠢

Ilya 举了个例子:
你在 Vibe Coding 做开发,发现了一个 Bug,跟模型说请修一下

模型说:哎呀你说得太对了,我这就修
结果它引入了第二个 Bug

你告诉它这儿又有个新 Bug
它说:天哪我怎么能犯这种错

然后它把第一个 Bug 又改回来了
你就看着它在这两个 Bug 之间来回横跳


Ilya 给了两个解释

第一个稍微异想天开一点:
强化学习虽然让模型在某些方面变强了,但也让它们变得有点"死脑筋"

第二个解释可能更接近本质:
应试教育

在做预训练的时代,选数据不需要动脑子,答案是"我全都要"

但在做强化学习时,你需要精心挑选训练环境

大家为了让模型在发布时好看,为了让评测分数漂亮,就专门针对评测标准去设计训练环境
这就是 Reward Hacking——人类研究员在 hack 奖励函数

(啊哈哈哈哈哈哈哈哈哈哈哈,笑死了,太真实了)

根本差距:泛化能力

为什么这些模型在泛化能力上,比人类差了十万八千里?

Ilya 打了个比方
假设有两个学生去搞算法竞赛

学生 A 决定要成为最强选手,他练了一万个小时,刷遍了所有的题,背下了所有的解题套路
他确实成了顶尖高手

学生 B 觉得这事挺有意思,大概只练了一百个小时,但他很有天赋,也考得不错

在未来的职业生涯中,谁会发展得更好?
肯定是第二个


A 是模型,B 是人类

现在的 AI 模型就像是第一个学生,甚至更极端

我们为了让它擅长编程,就收集了世上所有的编程题,甚至还通过数据增强造出了更多题来训练它

结果就是...
它确实把所有解题技巧都下来了
智能都是刷出来的,一旦遇到没见过的场景,它就很难举一反三

这是当前模型最本质的局限

Ilya 还提到一个神经科学的案例
有个人脑部受损,掌管情感的区域坏了
他的智商没变,说话依然流利,做逻辑题也没问题
但他完全没有情绪了

结果呢?
他变得完全无法做决定,选个袜子都要花几个小时
这说明人类内置的「情感」,其实是让我们成为一个有效率的智能体的关键

在机器学习里对应的就是「价值函数」(Value Function)
现在的强化学习,只有在最后那一刻才告诉模型好坏

而价值函数能在中间过程就给反馈
就像下国际象棋,你丢了一个车,你不需要等到整盘棋下完才知道自己搞砸了

未来的 AI 训练,一定会更多地依赖这种机制

"扩展"的终结

Ilya 把 AI 的发展史分成几个阶段

2012 到 2020 年,是「研究时代」
Age of Research
大家都在瞎折腾、试错、找新点子

2020 到 2025 年,是「扩展时代」
Age of Scaling
大家突然发现只要把数据和算力堆上去,效果就变好
于是所有人都只做一个动作:加倍、再加倍

但现在,预训练数据快到头了

虽然大家开始堆强化学习的算力
但 Ilya 认为那个"无脑堆规模"的阶段已经过去了

我们正重返研究时代


从研究时代到扩展时代,再到新研究时代

他说了一句话:
世界上的公司比点子还要多得多....如果点子这么不值钱,那怎么没见谁有点子呢?

这是在说,接下来拼的是想法,不是堆资源

重新定义 AGI

这里有个 Ilya 的重要观点
大家对 AGI 的理解可能被带偏了
我们总是把 AGI 想象成一个无所不知的神

但其实,人类并不是这样的

人类是「持续学习者」(Continual Learners)
所以,真正的超级智能,可能并不是一个出厂时就精通世间万物的成品
它更像是一个极其聪明的十五岁少年
基础很好,求知欲极其旺盛,学习速度极快

你把它投放到社会中,让它去学编程、去学医、去学法律

它是在部署之后,通过在真实世界中不断学习,才最终变成超级智能的


而现在,我们的模型只是预制菜

部署本身,将包含某种学习试错期

这是一个过程,而不是你扔出一个成品

对齐的新思路

如果这东西真的这么强,我们该让它以什么为目标?

Ilya 认为,我们真正应该追求的,是一个**关爱感知生命(Care about sentient life)**的 AI

注意,他说的是「感知生命」,不仅仅是人类

因为 AI 自己未来也会成为感知生命

如果它具备同理心,它能理解"痛苦"和"快乐"的含义,那么让它去关爱其他生命,可能比单纯给它设定"保护人类"这种硬性规则要更稳健、更容易实现


这可能比只对齐「人类」更容易,也更鲁棒

Ilya 还提到一个有意思的事情

进化很容易把「喜欢甜食」写进基因,因为那只是对某种化学分子的反应

但是,进化是如何把「在乎别人的看法」、「追求社会地位」这种极其抽象、复杂的社会性欲望写进我们的大脑的?

这需要调动大脑的大量区域来处理信息,而进化竟然做到了,而且做得非常稳固

如果我们能搞清楚大自然是怎么把这些高层目标「硬编码」进人类大脑的,或许对 AI 的对齐会有巨大的启发

SSI 的定位

Ilya 对 SSI 的策略也有些松动

之前的想法是"闭关修炼,不问世事,直到神功大成再出山"

这种策略很有吸引力,因为它能让你避开商业竞争的干扰

但现在他觉得,如果这东西真的像预期那么强大,那让世界提前看到它、感受到它,其实是有好处的

为什么?

因为「超级智能」太难想象了

如果你只写文章说 AI 未来会如何如何,大家看一眼就忘了

只有当人们亲眼看到 AI 展现出某种力量时,不管是政府还是公众,才会真正开始重视,才会去制定规则


专注的力量 vs 现实的引力

他说 SSI 是一家处于"研究时代"的公司

技术路线上,追求基于对"泛化"更深刻理解的、与众不同的技术路径

资源上,将所有资源投入研究,而非产品、销售或推理服务

最终目标是创造第一个真正安全、对齐的超级智能


SSI 研究品味

最后聊到"研究品味"

Ilya 是公认的 AI 领域品味最好的人之一,从 AlexNet 到 GPT-3,他都押对了

他是怎么做到的?

他说这是一种审美

在思考 AI 应该是什么样的时候,会去参考人类的大脑,但关键是要"正确地"参考

比如,神经网络的概念直接灵感来源于大脑神经元——这很美,很简洁,而且它是合理的

大脑通过神经元连接的变化来学习,那 AI 也应该这样

这种审美包含了一种对"美"和"简洁"的追求

如果你看到一个方案特别丑陋、特别复杂,那它大概率是不对的


研究品味的三大支柱:美与简洁、来自大脑的正确启发、自上而下的信念

而且,你需要一种自上而下的信念(Top-down belief)

当你做实验失败的时候,数据告诉你"这路不通"

如果你只看数据,你可能就放弃了

但如果你心中有一个基于"美感"和"原理"的强大信念,你会觉得:不,这在逻辑上必须是行得通的,肯定是我哪里做错了,或者是代码有 Bug

正是这种信念,支撑着你熬过那些实验失败的时刻,直到你最终把它做出来

最后

回到 Ilya 在采访开头说了一句话:
你知道最疯狂的是什么吗?就是这一切竟然都是真的

这一切正在发生
但接下来怎么走,需要新的想法


AI 的下一纪元,始于思想

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着韩国0-5,女足亚洲杯八强对阵出炉:中国PK弱旅,朝鲜PK强敌

随着韩国0-5,女足亚洲杯八强对阵出炉:中国PK弱旅,朝鲜PK强敌

侧身凌空斩
2026-04-08 22:59:50
斯诺克世锦赛:中国6胜3负,新科冠军9-10被"打爆",美女球手封神

斯诺克世锦赛:中国6胜3负,新科冠军9-10被"打爆",美女球手封神

田心生活
2026-04-08 12:39:43
56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

动物奇奇怪怪
2026-04-09 02:50:37
4月8日俄乌最新:普京押错了注

4月8日俄乌最新:普京押错了注

西楼饮月
2026-04-08 20:39:48
特朗普称停火“不包括”黎巴嫩和黎真主党

特朗普称停火“不包括”黎巴嫩和黎真主党

财联社
2026-04-08 23:12:39
欧冠 1/4 决赛首回合:悲喜交织,四强悬念初现

欧冠 1/4 决赛首回合:悲喜交织,四强悬念初现

阿晞体育
2026-04-09 07:18:15
社保基金最新重仓硬科技龙头,市值低至40亿,最长已横盘526天

社保基金最新重仓硬科技龙头,市值低至40亿,最长已横盘526天

长风价值掘金
2026-04-08 15:15:57
“预制菜”一上桌,人就跑光!商场餐饮的黄金时代真结束了?

“预制菜”一上桌,人就跑光!商场餐饮的黄金时代真结束了?

混沌录
2026-04-08 16:54:07
巴塞罗那0-2马竞,赛后评分:不是马竞球员第1,巴塞罗那10号第1

巴塞罗那0-2马竞,赛后评分:不是马竞球员第1,巴塞罗那10号第1

侧身凌空斩
2026-04-09 04:56:44
女子车祸截瘫案开庭,只想得应有赔偿,肇事男友首回应,评论炸锅

女子车祸截瘫案开庭,只想得应有赔偿,肇事男友首回应,评论炸锅

暖心萌阿菇凉
2026-04-08 09:08:03
豪门悲喜夜:巴塞罗那输球输人0-2濒临出局,利物浦0-2濒临出局

豪门悲喜夜:巴塞罗那输球输人0-2濒临出局,利物浦0-2濒临出局

侧身凌空斩
2026-04-09 05:08:01
欧冠悲喜夜!大巴黎2-0完胜利物浦,马竞复仇巴萨破20年不胜魔咒

欧冠悲喜夜!大巴黎2-0完胜利物浦,马竞复仇巴萨破20年不胜魔咒

钉钉陌上花开
2026-04-09 05:14:43
全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

阅微札记
2026-04-08 19:55:14
父亲40年攒下的千亿帝国,儿子4年败光

父亲40年攒下的千亿帝国,儿子4年败光

大猫财经Pro
2026-04-08 16:09:55
霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

眼光很亮
2026-04-08 12:25:48
戏剧性转变:通牒到期,美伊停火

戏剧性转变:通牒到期,美伊停火

南风窗
2026-04-08 14:07:48
致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

界面新闻
2026-04-08 19:18:18
6.8万紫貂被扯坏后续:女子更多虚荣行为被扒,全公司都知道了!

6.8万紫貂被扯坏后续:女子更多虚荣行为被扒,全公司都知道了!

潮鹿逐梦
2026-04-08 11:36:48
网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

网友好奇:网暴全红婵的群主是谁?群内真有现役运动员吗?

罗纳尔说个球
2026-04-08 23:08:09
伊朗革命卫队将发布“真实承诺-4”第100轮行动战略声明

伊朗革命卫队将发布“真实承诺-4”第100轮行动战略声明

财联社
2026-04-08 18:25:35
2026-04-09 07:40:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
367文章数 50关注度
往期回顾 全部

科技要闻

吴泳铭成立阿里技术委员会 为何这四人入选

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

谁骗了董宇辉?

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

健康
家居
本地
数码
公开课

干细胞抗衰4大误区,90%的人都中招

家居要闻

自在恣意 侘寂风别墅

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

SK海力士开始供应321层QLC NAND cSSD:最高可选2TB

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版