网易首页 > 网易科技 > IT业界 > 正文

苏茨克维2万字深度访谈|当所有人都在卷算力时,他却看到了AGI的“最后一块拼图”

0
分享至

作者 | 小小

出品 | 网易科技

在硅谷的聚光灯下,现在的AI圈像极了一场永无止境的军备竞赛。每隔几个月,总有一家巨头跳出来喊:“看!我的模型参数又翻了一倍!”或者“瞧!我又买了十万块H100显卡!”大家似乎笃信一条真理:只要数据投喂得够多,算力堆得够猛,AGI就会自动涌现。

然而,就在这股狂热的“算力崇拜”中,一位真正的重量级人物,OpenAI前首席科学家、ChatGPT的缔造者、现任Safe Superintelligence (SSI) CEO伊利亚·苏茨克维(Ilya Sutskever),却选择了一条截然不同的路。

最近,他在知名播客Dwarkesh Podcast(主持人:德瓦尔克什·帕特尔)中接受专访。没有为了融资而画的大饼,也没有公关式的套话。这次访谈,更像是一位刚刚从未来穿越回来的顶级科学家,心平气和地告诉我们:“别卷了,以前的那套玩法,到头了。”

这不仅是一次观点的输出,更是一份详尽的“AGI路线图”。他不仅给出了AGI降临的倒计时(5到20年),更深刻剖析了当前大模型的致命缺陷。

网友们纷纷评论称,苏茨克维在访谈中展现了他一贯的思考深度:不用复杂术语,却能直指AI发展的核心矛盾。他关于“我们从规模化时代进入研究时代”的判断,尤其值得每个关注AI领域的人深思,堪称“我们这个时代的奥本海默”。

苏茨克维2万字深度访谈|当所有人都在卷算力时,他却看到了AGI的“最后一块拼图”

苏茨克维2万字深度访谈|当所有人都在卷算力时,他却看到了AGI的“最后一块拼图”

苏茨克维究竟看到了什么?让我们拆解一下这场对话的核心干货。

01. 告别“大力出奇迹”:规模化时代的落幕

将时间拨回五年前,苏茨克维可能是那个最信奉“Scaling Law(缩放定律)”的人。但今天,他却成了那个亲手给“规模化时代”盖上棺材板的人。

在访谈中,苏茨克维像一位严谨的历史学家,将2010年代末到2025年定义为“规模化时代(The Age of Scaling)”。

这几年是AI发展的“黄金蜜月期”。逻辑简单粗暴却极其有效:只要你增加计算资源,增加数据量,模型的能力就会线性增长。这种高度的确定性,让风投和科技巨头们趋之若鹜。

但苏茨克维现在的判断是:这种好日子结束了。为什么?因为我们撞上了两堵墙。

第一堵墙是“数据枯竭”。互联网上高质量的人类文本,基本上已经被现在的模型“吃干抹净”了。想继续靠堆数据来提升智力,就像是在贫矿里淘金,投入产出比急剧下降。

第二堵墙是“边际效应递减”。苏茨克维反问了一个直击灵魂的问题:“当模型规模已经如此庞大时,你再投入100倍的计算资源,真的能带来质的飞跃吗?”答案令人沮丧。

但这并不意味着AI完了,而是意味着游戏规则变了。我们正式进入了“研究时代(The Age of Discovery)”。在新的时代里,拼的不再是谁的GPU多,而是谁能找到那个更聪明、更本质的算法“新配方”。

02. 高分低能的悖论:困在“氛围编程”里的做题家

为了解释为什么我们需要新配方,苏茨克维不仅吐槽了现在的AI,还发明了一个非常精准的词:“氛围编程(Vibe Coding)”。

现在的顶级大模型(LLM)像极了一位“满级做题家”。你给它出一道奥数题,它能秒解;你让它写一篇关于量子力学的论文,它能引经据典。但在实际工作中,比如编程,它却表现得像个“糊涂蛋”。

苏茨克维描述了一个让所有程序员都感同身受的场景:

“你让AI修复一个Bug,它非常自信地改了,结果导致了一个新Bug。你指出这个问题,它又非常诚恳地道歉并修改,结果……它把最开始那个Bug又带回来了。”

这就是苏茨克维所谓的“能力参差(Jagged Capability)”:在某些测试集上,AI的表现早已超越人类;但在很多现实的、需要连续逻辑推理的场景中,它的可靠性甚至不如一个实习生。 问题的根源在于“泛化能力”的缺失。

苏茨克维用了一个极其扎心的对比:一个人类青少年,哪怕没什么天赋,练习开车10到20个小时也就学会了。而我们的AI呢?它像一只贪婪的“数据貔貅”,吞噬了全人类产生的所有驾驶视频和数据,却依然可能在遇到一个没见过的路况时瞬间“宕机”。

现在的AI是靠“背诵”海量样本来伪装智能,而人类是靠“理解”底层逻辑来举一反三。这中间的鸿沟,就是AGI必须跨越的天堑。

03. 寻找“机器直觉”:Value Function才是核心

那么,人类这种“举一反三”的能力究竟从何而来?苏茨克维给出的答案出人意料地带有浓厚的生物学色彩:价值函数(Value Function),或者说,一种内在的“感觉”。

为了解释这个硬核的机器学习概念,苏茨克维讲了一个关于脑损伤患者的真实案例。

有一位曾经非常聪明的会计师,因为脑部损伤失去了情绪中枢,虽然他的智商毫无受损,记忆力超群,逻辑运算完美,但他的人生却崩溃了。为什么?因为他无法做决定。仅仅是早上“穿哪双袜子”这个问题,他就能盯着衣柜纠结好几个小时,列出无数种利弊,却永远无法选定其中一双。

苏茨克维指出,情绪(Emotion)和感觉,其实是人类大脑为了在这个复杂世界中高效生存,而进化出的一套“超级压缩算法”。它对应到我们生物大脑里,就是“价值函数”。 现在的AI训练(比如强化学习),往往是“结果导向”的:只有当模型跑完整场马拉松,我们才告诉它成绩好不好。这效率太低了!

而人类的“价值函数”,是一个随时随地都在耳边低语的“导师”。当你在这个路口刚想左转,你的“直觉”就会告诉你:“感觉不对,这路有点阴森。”这种对“过程”的实时价值评估能力,才是人类智能极其高效、鲁棒的核心秘密。

苏茨克维认为,下一代AI的突破点,就在于如何让机器学会这种“直觉”。

04. 告别同质化:让AI学会“左右互搏”

除了“缺心眼”(没直觉),现在的AI还有一个大毛病:千篇一律。

你有没有发现,无论是OpenAI、Claude还是Google的模型,它们的回答风格、甚至犯错的方式都越来越像?苏茨克维一针见血地指出:“因为大家都在用同样的数据集做预训练。”

这种同质化是危险的,它导致所有模型都可能会在同一个坑里跌倒。为了打破这个僵局,苏茨克维提出了一个源自AlphaGo时期的经典思路:自我博弈(Self-Play),但这次是升级版。

不仅仅是下棋,苏茨克维构想的是一种“对抗性辩论”。

想象一下,我们不直接训练一个模型,而是训练两个。一个充当“辩手”,提出观点;另一个充当“裁判”或“挑刺者”,专门寻找逻辑漏洞。甚至可以让两个AI针对一个问题进行激辩。

在这种“左右互搏”的高压环境下,模型被迫跳出死记硬背的舒适区,去寻找更深层的逻辑支点。苏茨克维认为,只有通过这种激烈的内部竞争,AI才能进化出独特的“个性”和真正的创造力,而不是只会当一个“平庸的打工仔”。

05. SSI的野望:打造“15岁的超级少年”

带着这些极具颠覆性的思考(研究时代、价值函数、自我博弈),苏茨克维创立了新公司SSI(Safe Superintelligence)。

这就解释了为什么SSI如此神秘且自信。当被问及“既然你们不搞产品,钱够烧吗?”时,苏茨克维淡定地表示:“我们的计算资源一点都不少。”

区别在于,别的公司把钱花在为了服务数亿用户而搭建的庞大推理服务器上,还要养活数千人的产品团队;而SSI把每一分钱、每一张显卡的算力,都砸在了“纯粹的研究(Research Compute)”上。

他们的目标产品,不是一个聊天机器人,而是一个“超级智能的15岁少年”。 这又是一个绝妙的比喻。苏茨克维心中的AGI,不是一出厂就全知全能的神。它更像是一个拥有极高智商、极快学习速度、且充满好奇心的天才少年。它还没有读完世界上所有的书,但当你把它扔到一个陌生的环境,它能利用强大的“价值函数”迅速精通这项技能。

关于AGI何时到来,苏茨克维给出了一个令人屏息的时间表:5到20年。这不再是一个遥不可及的科幻概念,而是我们这一代人注定要亲历的历史时刻。

06. 格局打开:从“服务人类”到“关怀生命”

在谈到AI安全与对齐(Alignment)这个终极难题时,苏茨克维的视角从技术层面跃升到了哲学层面,展示了真正的大师格局。

很多公司还在研究如何让AI“听人类的话”、“不伤害人类”,苏茨克维却在思考一个更宏大、更普世的命题:构建一个“关爱感知生命(Sentient Life)”的AI。 他认为,仅仅训练AI“效忠人类”是不够稳健的,甚至可能是危险的。因为在未来的宇宙中,除了人类,可能还有海量的AI智能体。如果AI只懂服从指令,却不懂“痛苦”和“快乐”的本质,它依然可能成为冷血的执行者。

相反,一个拥有情感、具备同理心、能够理解并珍视所有“有感知能力的生命”的AI,才是真正安全的。这种基于“大爱”的对齐,比基于“规则”的对齐更容易实现,也更具鲁棒性。

更有趣的是,关于人类在未来的位置,苏茨克维抛出了一个极具赛博朋克色彩的设想:

“人类想要不被边缘化,可能需要通过脑机接口(如Neuralink)与AI融合,成为‘半AI生命体’。”

只有这样,我们才能真正理解超级智能在想什么,并与之实现思维的同步。这不仅是技术的融合,更是文明形态的进化。

07. 结语:给AI科学家的“审美建议”

访谈的最后,苏茨克维分享了他做研究的秘密心法,听起来更像是一位艺术家的独白。

他说,真正突破性的研究,往往符合三个标准:美(Beauty)、简洁(Simplicity)、以及生物学上的合理性(Biological Plausibility)。 “如果在实验数据和你的直觉相悖时,是什么支撑你坚持下去?是对‘美’的信念。”

苏茨克维的这番话,标志着AI领域正在发生一场深刻的范式转移。那个靠“堆料”就能赢的旧时代已经落幕了,正如他所言:“想法(Idea)如果不贵,为什么现在没人能拿得出来?”

接下来的5到20年,将是拼认知、拼审美、拼“机器直觉”的新赛场。AGI的倒计时已经开启,你准备好了吗?

文字实录(由AI翻译,网易编辑负责校对)

【解释模型能力的参差不齐】

伊利亚·苏茨克维: 你知道什么很疯狂吗?这一切都是真实的。

德瓦尔克什·帕特尔: 指什么?

伊利亚·苏茨克维: 你不觉得吗?所有这些人工智能 (AI) 的东西,旧金山湾区发生的一切……这一切正在进行中。这难道不像是直接从科幻小说里走出来的吗?

德瓦尔克什·帕特尔: 另一件疯狂的事是,“慢速起飞 (slow takeoff)”的感觉竟然如此稀松平常。那种我们要投入1% 的GDP在AI上的想法,我本以为这会让人觉得翻天覆地,但现在感觉也就是……

伊利亚·苏茨克维: 事实证明,我们适应起新事物来相当快。而且这也有点抽象。这到底意味着什么?无非是你在新闻里看到某某公司宣布了一笔数额巨大的投资。仅此而已。到目前为止,人们在其他方面并没有切身感受到它。

德瓦尔克什·帕特尔: 我们要从这里开始聊吗?我觉得这是个有趣的讨论点。

伊利亚·苏茨克维: 当然。

德瓦尔克什·帕特尔: 你提到的那个观点,即从普通人的视角看,一切并没有什么不同,我认为即便到了“奇点 (singularity)”发生时,这依然会是常态。

伊利亚·苏茨克维: 不,我不这么认为。

德瓦尔克什·帕特尔: 好吧,有意思。

伊利亚·苏茨克维: 我刚才指的“感觉没什么不同”,是指比如某某公司宣布了一笔难以理解的巨额投资。我觉得没人知道该拿这信息怎么办。

但我认为AI的影响将会被真切感受到。AI将会渗透进整个经济体系。这背后会有非常强大的经济驱动力,我认为这种影响将会非常强烈。

德瓦尔克什·帕特尔: 你预计这种影响何时到来?我觉得目前的模型看起来比它们实际产生的经济影响要聪明得多。

伊利亚·苏茨克维: 是的。这是目前关于模型最令人困惑的事情之一。如何调和“模型在评测 (evals) 上表现优异”这一事实?你看那些评测,你会说:“这些题很难啊。”它们做得非常好。但经济影响似乎大大滞后。很难理解,为什么模型一方面能做这些惊人的事情,另一方面又会在某些情况下重蹈覆辙?

举个例子,假设你用“凭感觉编程 (vibe coding)”做点什么。你写着写着遇到了一个Bug。你告诉模型:“能修一下这个Bug吗?”模型说:“天哪,你说得太对了。我确实有个Bug。让我去修好它。”结果它引入了第二个Bug。然后你告诉它:“你又有这个新的Bug了。”它又说:“天哪,我怎么会这样?你又对了。”然后它把第一个Bug又带回来了,你就这样在两个Bug之间来回折腾。这怎么可能呢?我不确定,但这确实表明有一些奇怪的事情正在发生。

我有两种可能的解释。一种比较天马行空的解释是,也许强化学习 (RL) 训练让模型变得有点过于死板和狭隘,有点过于缺乏自我意识,尽管这种训练在其他方面让它们变得更敏锐。因为这个原因,它们连基本的任务都做不好。

但还有另一种解释。在人们做预训练 (pre-training) 的时候,“用什么数据训练”这个问题的答案是不言自明的,因为答案是“所有数据”。做预训练时,你需要所有的数据。所以你不需要纠结是用这个数据还是那个数据。

可是当人们做RL训练时,他们确实需要思考。他们会说:“好吧,我们想针对这个东西进行这类RL训练,针对那个东西进行那类 RL训练。”据我所知,所有的公司都有专门的团队负责构建新的 RL环境,并将其加入训练组合中。问题是,这些环境是什么?自由度太大了。你能构建的 RL 环境种类繁多。

有一种情况是可能会发生的,我认为这是无心插柳的结果,就是人们会从评测集 (evals) 中寻找灵感。你会说:“嘿,我希望我们的模型在发布时表现出色。我希望评测分数好看。什么样的 RL 训练能在这个任务上加分?”我认为这种情况确实存在,这可能解释了很多现状。

如果你把这一点与“模型实际泛化 (generalization) 能力不足”结合起来,这就有可能解释我们看到的很多现象——即评测表现与现实世界实际表现之间的脱节。对于这种脱节意味着什么,我们今天甚至都还没完全理解。

德瓦尔克什·帕特尔: 我喜欢这个观点,真正的“奖励黑客 (reward hacking)”其实是那些紧盯着评测不放的人类研究员。

我认为有两种方式来理解,或者说思考你刚才指出的问题。一种是,如果仅仅通过在编程竞赛中达到超人水平,模型并不会自动变得更有品位,也不会在如何改进代码库方面拥有更好的判断力,那么你就应该扩展环境套件,不仅仅测试它在编程竞赛中的表现。它还应该能够为 X、Y 或 Z 打造最好的应用程序。

另一种,也许这正是你暗示的,即反问:“为什么我们理所当然地认为‘在编程竞赛中达到超人水平不能让你成为一个更有品位的程序员’?”也许我们要做的不是不断堆砌环境的数量和多样性,而是找出一套方法,让模型能从一个环境中学习,进而提高在其他方面的表现。

伊利亚·苏茨克维: 我有一个人类的类比或许有帮助。既然你提到了,我们就以竞技编程为例。假设有两个学生。其中一个决定要成为最好的竞技程序员,所以他在这个领域练习了10,000小时。他解决了所有问题,背诵了所有证明技巧,能极其熟练、快速且正确地实现所有算法。通过这种方式,他成为了顶尖选手之一。

二号学生觉得:“哦,竞技编程挺酷的。”也许他只练了100个小时,少得多,但他做得也非常好。你觉得哪一个在未来的职业生涯中会发展得更好?

德瓦尔克什·帕特尔: 第二个。

伊利亚·苏茨克维: 对。我认为这基本上就是正在发生的事情。现在的模型更像第一个学生,甚至程度更甚。因为我们会说,模型应该擅长竞技编程,所以我们要把史上所有的竞技编程题目都找来。然后还要做数据增强,搞出更多的题目,然后训练它。现在你得到了这个伟大的竞技程序员。

有了这个类比,事情就直观多了。是的,好吧,如果它被训练得这么好,所有不同的算法和证明技巧都信手拈来。但直觉上也能理解,这种程度的应试般训练并不一定能泛化到其他事情上。

德瓦尔克什·帕特尔: 但是,第二个学生在进行那100小时的微调之前,他在做什么?这对应的类比是什么?

伊利亚·苏茨克维: 我觉得他们拥有某种“特质” (the "it" factor)。那种天赋。我读本科的时候,记得有个跟我一起学习的学生就是这样,所以我知道这种人是存在的。

德瓦尔克什·帕特尔: 我认为区分这种“特质”和预训练的作用很有趣。对于你刚才说的“预训练不用选择数据”,有一种理解方式是,它其实和那10,000小时的练习没有太大不同。只是你免费获得了那10,000小时的练习,因为它已经存在于预训练的分布中了。但也许你是在暗示,预训练带来的泛化其实没那么多。预训练只是数据量巨大,但它的泛化能力未必比 RL 更好。

伊利亚·苏茨克维: 预训练的主要优势在于:A,数据量极其巨大;B,你不需要费尽心思去想把什么数据放入预训练中。那是很自然的数据,确实包含了人类所做的很多事情:人类的思想和很多特征。它就像是整个世界被人类投射到了文本上,而预训练试图利用海量数据来捕捉这一点。

预训练很难推理,因为很难理解模型以何种方式依赖预训练数据。每当模型犯错时,是不是因为运气不好,这个点在预训练数据中支持度不够?“预训练支持度”可能是一个宽泛的术语。我不知道我还能对此补充什么更有用的观点。我不认为预训练在人类身上有对应的类比。

【情感与价值函数】

德瓦尔克什·帕特尔: 关于什么是预训练的人类类比,人们提出过几个。我想听听你为什么认为它们可能是错的。一种是把人生的前18年、15年或13年视作预训练,那时人虽然没有经济产出,但正在做一些让自己更好地理解世界的事情。另一种是把进化看作是进行了30亿年的某种搜索,其结果就是产生了一个人类生命实例。

我很好奇你是否认为这其中任何一个可以类比预训练。如果不是预训练,你如何看待人类一生的学习过程?

伊利亚·苏茨克维: 我认为这两者与预训练都有一些相似之处,而且预训练试图同时扮演这两者的角色。但我认为也存在巨大的差异。预训练的数据量非常非常惊人。

德瓦尔克什·帕特尔: 是的。

伊利亚·苏茨克维: 不知怎么的,一个人哪怕只活了15年,所接触的数据也只是预训练数据的一小部分,他们知道的信息要少得多。但无论他们知道什么,他们似乎理解得更深刻。在那个年纪,你根本不会犯我们的 AI 所犯的那种错误了。

还有一件事。你可能会问,会不会像进化?答案是也许。但在这种情况下,我认为进化实际上可能更有优势。我记得读过一个案例。神经科学家研究大脑的一种方法是研究大脑不同部位受损的人。有些人的症状奇怪到超乎想象。这真的非常非常有趣。

我想到了一个相关的案例。我读到过一个人,他的大脑受到某种损伤,中风还是事故,破坏了他的情感处理能力。所以他不再感受到任何情绪。他依然能言善辩,能解小谜题,在测试中看起来一切正常。但他感觉不到情绪。他不觉得悲伤,不觉得愤怒,也没有活力。但奇怪的是,他在做任何决定时都变得一塌糊涂。他要花几个小时才能决定穿哪双袜子。他会做出非常糟糕的财务决策。

这说明了什么?这说明我们内置的情感,在让我们成为一个能够生存的智能体 (agent) 方面,究竟扮演了什么角色?联系到你关于预训练的问题,也许如果你能足够好地从预训练中挖掘出所有信息,你也能获得这种能力。但这看起来像是……嗯,这种能力可能可以从预训练中获得,也可能不行。

德瓦尔克什·帕特尔: 那个“这种能力”指的是什么?显然不只是直接的情感。这听起来简直就像是某种类价值函数 (value function) 的东西,它告诉你任何决定的最终回报应该是什么。你认为这并不隐含在预训练中?

伊利亚·苏茨克维: 我认为有可能。我只是说这并不是100% 显而易见的。

德瓦尔克什·帕特尔: 但这到底是什么?你如何看待情感?情感在机器学习 (ML) 中的类比是什么?

伊利亚·苏茨克维: 它应该是某种价值函数的东西。但我不认为现在有一个很好的机器学习类比,因为目前价值函数在人们所做的事情中并没有扮演非常重要的角色。

德瓦尔克什·帕特尔: 如果你愿意的话,也许值得给听众定义一下什么是价值函数。

伊利亚·苏茨克维: 当然,我很乐意。当人们做强化学习时,现在的做法是怎样的?你有一个神经网络,给它一个问题,然后告诉模型:“去解决它。”模型会进行成千上万次的动作或思考步骤,然后生成一个解决方案。这个解决方案会被打分。

然后,这个分数被用来为轨迹中的每一个动作提供训练信号。这意味着,如果你在做一件持续时间很长的事情——如果你在训练一个需要很长时间才能解决的任务——在得出拟议的解决方案之前,它是完全不进行学习的。这是目前强化学习朴素的做法。这表面上也是 o1、R1的做法。

价值函数的作用类似于:“也许我可以有时候——不是总是——告诉你,你做得是好是坏。”价值函数的概念在某些领域比在其他领域更有用。例如,下国际象棋时,你丢了一个子,我就搞砸了。你不需要下完一整盘棋就能知道,我刚才那步棋是一步臭棋,进而推断出之前的几步也好不到哪去。

价值函数让你不必等到最后。假设你在做某种数学或编程任务,你在尝试探索某个特定的解决方案或方向。经过,比如说,一千步的思考后,你得出结论:这个方向没前途。只要你得出这个结论,你就可以在一千个时间步之前、当你决定沿着这条路径走的时候就得到一个奖励信号。你会说:“下次在类似情况下我就不该走这条路,”这比你实际拿出最终方案要早得多。

德瓦尔克什·帕特尔: DeepSeek R1的论文里提到了这一点——轨迹空间太广了,以至于很难学习从中间轨迹到价值的映射。而且考虑到在编程中,你可能会有一个错误的想法,然后回溯,再修改某些东西。

伊利亚·苏茨克维: 这听起来对深度学习也太没信心了。这当然可能很难,但没有什么深度学习做不到的。我的预期是价值函数应该是有用的,我完全期望如果它们现在还没被使用,将来也会被使用。

我之前提到那个情感中枢受损的人,我想暗示的是,也许这表明人类的价值函数在某种重要方式上受到情感的调节,而这种调节是进化硬编码的。也许这对于人类在世界上有效行动至关重要。

德瓦尔克什·帕特尔: 这也是我打算问你的。关于情感作为价值函数,有一点非常有趣,那就是令人印象深刻的是,它们虽然理解起来相当简单,却拥有如此巨大的效用。

伊利亚·苏茨克维: 我有两点回应。我同意,与我们学到的东西以及我们要构建的那种 AI 相比,情感相对简单。它们甚至简单到你或许可以用人类能理解的方式把它们描绘出来。我觉得如果能做到这一点会很酷。

但就效用而言,我认为存在一个“复杂性与鲁棒性的权衡 (complexity-robustness tradeoff)”。复杂的东西可能非常有用,但简单的东西在非常广泛的情况下都非常有用。对于我们所看到的现象,一种解释是:我们拥有的这些情感主要从哺乳动物祖先那里进化而来,然后在我们成为原始人类时进行了一点微调,只是一点点。不过我们确实有相当数量的社会情感,这是哺乳动物可能缺乏的。但它们并不是非常复杂。正因为它们不复杂,所以在这个与我们过去生活的世界截然不同的现代世界里,它们依然能很好地为我们服务。

实际上,它们也会犯错。例如,我们的情感……实际上,我不知道。饥饿算一种情感吗?这有争议。但我认为,例如我们直觉上的饥饿感,在当今这个食物充足的世界里,就没有成功地正确引导我们。

【我们在扩展 (Scaling) 什么?】

德瓦尔克什·帕特尔: 人们一直在谈论扩展数据、扩展参数、扩展算力。有没有一种更通用的方式来思考扩展 (scaling)?其他的扩展轴是什么?

伊利亚·苏茨克维: 有个观点我觉得可能是对的。过去机器学习的工作方式是,人们只是修修补补,试图得到有趣的结果。这是过去发生的事情。

然后扩展的洞见出现了。缩放定律 (Scaling laws)、GPT-3,突然间每个人都意识到我们应该扩大规模。这是一个语言影响思维的例子。“Scaling(扩展)”只是一个词,但它是一个非常有力的词,因为它告诉人们该做什么。他们说:“让我们试着扩展吧。”所以你会问,我们在扩展什么?我们扩展的对象是预训练。这是一种特定的扩展配方。

预训练的重大突破在于意识到这个配方是好的。你会说:“嘿,如果你把一些算力和一些数据混合进特定大小的神经网络里,你就会得到结果。你知道只要把这个配方放大,效果就会更好。”这太棒了。公司喜欢这个,因为它提供了一种风险非常低的资源投资方式。

相比之下,把资源投入到研究中要难得多。对比一下。如果你做研究,你需要说:“去吧研究员们,去做研究,想出点东西来”,而不是“获取更多数据,获取更多算力”。你知道你会从预训练中有所收获。

确实,根据一些人在推特上的说法,看起来 Gemini 可能已经找到了一种从预训练中获取更多收益的方法。但在某个时刻,预训练的数据会用完。数据显然是有限的。下一步做什么?要么你做某种增强版的预训练——一种不同于以前的配方,要么你做 RL,或者可能其他东西。但现在既然算力很大,算力现在非常大,从某种意义上说,我们又回到了研究时代。

也许换个说法。直到2020年,从2012年到2020年,那是研究时代。现在,从2020年到2025年,是扩展时代——也许可以加上或减去几年作为误差范围——因为人们说:“这太神奇了。你得扩大规模。继续扩展。”就这一个词:扩展。

但现在规模已经这么大了。人们真的相信“哦,虽然现在很大,但如果你有100倍的规模,一切都会变得截然不同”吗?肯定会有不同。但这真的会彻底改变一切吗?我不认为那是真的。所以这又回到了研究时代,只是有了更大的计算机。

德瓦尔克什·帕特尔: 这种说法很有趣。那么让我问你刚才提出的那个问题。我们在扩展什么?拥有一个配方意味着什么?我想我还没发现那种在预训练中存在的、近乎物理定律般清晰的关系。数据、算力或参数与损失 (loss) 之间曾存在幂律关系。我们应该寻求什么样的关系?这种新配方应该是什么样的?

伊利亚·苏茨克维: 我们已经见证了从一种扩展类型到另一种扩展类型的过渡,从预训练到 RL。现在人们正在扩展 RL。根据人们在推特上的说法,目前他们在 RL 上花费的算力已经超过了预训练,因为 RL 确实可以消耗相当多的算力。你做非常长的推演 (rollouts),所以产生这些推演需要很多算力。然后你从每次推演中获得的学习量相对较少,所以你真的可以消耗大量算力。

我甚至不会称之为扩展。我会说:“嘿,你在做什么?你做的事情是你所能做的最高效的事情吗?你能找到一种更高效利用算力的方法吗?”我们之前讨论过价值函数的事情。也许一旦人们擅长使用价值函数,他们将能更高效地利用资源。如果你找到了一种全新的训练模型的方法,你会说:“这是扩展,还是仅仅是利用你的资源?”我认为这变得有点模棱两可。

在某种意义上,当人们回到当年的研究时代时,那是:“让我们试试这个、这个和这个。试试那个、那个和那个。哦,看,有趣的事情发生了。”我认为我们会回归到那种状态。

德瓦尔克什·帕特尔: 如果我们回到了研究时代,退一步说,配方中我们需要思考最多的部分是什么?当你说价值函数时,人们已经在尝试当前的配方了,比如用大模型作为裁判 (LLM-as-a-Judge) 等等。你可以说那是价值函数,但听起来你心里有更根本的东西。我们是否应该彻底重新思考预训练,而不仅仅是在那个过程的末尾添加更多步骤?

伊利亚·苏茨克维: 关于价值函数的讨论,我觉得很有趣。我想强调,我认为价值函数会让 RL 更有效率,这会有所不同。但我认为任何你能用价值函数做的事,你也可以不用它做,只是慢一点。我认为最根本的事情是,这些模型的泛化能力不知何故就是比人类差得多。这超级明显。这似乎是一件非常根本的事情。

【为什么人类的泛化能力强于模型】

德瓦尔克什·帕特尔: 所以这就是关键:泛化 (generalization)。这有两个子问题。一个是关于样本效率 (sample efficiency):为什么这些模型学习所需的样本数据比人类多得多?第二个问题是,即使不考虑数据量,为什么教模型我们要的东西比教人类要难得多?对于人类,我们不一定需要一个可验证的奖励才能……你现在可能在指导一群研究人员,你跟他们聊天,给他们看你的代码,展示你的思维方式。从中,他们就能学到你的思维方式以及该如何做研究。

你不必为他们设定一个可验证的奖励,比如“好,这是课程的下一部分,那是你课程的下一部分。哦,这次训练不稳定。”没有这种繁琐、定制的过程。也许这两个问题在某种程度上是相关的,但我很好奇这种更像是持续学习 (continual learning) 的第二个问题,以及感觉仅仅是样本效率的第一个问题。

伊利亚·苏茨克维: 你其实可以猜想,对于人类样本效率高的一种可能的解释是进化。进化给了我们少量但最有用的信息。对于视觉、听觉和运动这些事情,我认为有很强的理由相信进化给了我们很多。

例如,人类的灵巧度远超……我的意思是,如果你在模拟环境中对机器人进行大量训练,它们也能变得灵巧。但在现实世界中训练机器人像人一样快速掌握一项新技能,似乎遥不可及。这里你可以说:“哦是的,运动能力。我们的祖先都需要极好的运动能力,比如松鼠。所以在这方面,也许我们拥有某种难以置信的先验知识 (prior)。”

对于视觉你也可以做同样的论证。我相信 Yann LeCun 提出过,孩子在10小时练习后就能学会开车,这是真的。但我们的视觉太好了。至少对我来说,我记得我五岁的时候。那时我对汽车非常兴奋。我敢肯定,作为一个五岁的孩子,我的汽车识别能力对于开车来说已经绰绰有余了。作为一个五岁的孩子,你看不到那么多数据。你大部分时间都呆在父母家里,所以数据多样性非常低。

但你可以说也许这也是进化。但在语言、数学和编程方面,可能不是。

德瓦尔克什·帕特尔: 但这似乎仍比模型好。显然,模型在语言、数学和编程方面比普通人强。但它们在学习方面比普通人强吗?

伊利亚·苏茨克维: 哦,是的。哦是的,绝对的。我想说的是,语言、数学和编程——尤其是数学和编程——表明,让人类擅长学习的原因可能不完全是一个复杂的先验知识,而是某种更多的、某种根本性的东西。

德瓦尔克什·帕特尔: 我不确定我听懂了。为什么会这样?

伊利亚·苏茨克维: 考虑一项技能,如果人们在这项技能上表现出某种极大的可靠性。如果这项技能对我们的祖先在数百万年、数亿年里非常有用,你可以争辩说,也许人类擅长它是由于进化,因为我们有一个先验,一个以某种非常不明显的方式编码的进化先验,不知何故让我们如此擅长它。

但是,如果人们在一个直到最近才存在的领域表现出极大的能力、可靠性、鲁棒性和学习能力,那么这更多地表明人类可能只是拥有更好的机器学习原理,就是这样。

德瓦尔克什·帕特尔: 我们该如何思考那是什么?机器学习的类比是什么?这其中有几个有趣的点。它需要的样本更少。它更像是无监督的。一个学开车的孩子……孩子学车可不是那个路数。一个学开车的青少年并没有得到某种预设的、可验证的奖励。这是来自于他们与机器和环境的互动。它需要的样本少得多。看起来更无监督。看起来更鲁棒?

伊利亚·苏茨克维: 鲁棒得多。人类的鲁棒性真的令人咋舌。

德瓦尔克什·帕特尔: 你有没有一种统一的方式来思考为什么所有这些事情会同时发生?能够实现类似效果的机器学习类比是什么?

伊利亚·苏茨克维: 你一直问的一个问题是,青少年司机如何在没有外部老师的情况下自我纠正并从经验中学习?答案是他们有自己的价值函数。他们有一种普遍的感觉,顺便说一句,这种感觉在人身上也极其鲁棒。无论人类的价值函数是什么,除了成瘾等少数例外,它其实非常非常鲁棒。

所以对于像学开车的青少年来说,他们开始开车,他们立刻对自己开得怎么样、有多糟糕、多不自信有一种感觉。然后他们看到,“好吧。”当然,任何青少年的学习速度都是极快的。10个小时后,你就可以上路了。

德瓦尔克什·帕特尔: 看起来人类有某种解决方案,但我很好奇他们是如何做到的,以及为什么这这么难?我们需要如何重新概念化我们训练模型的方式,以使这种事情成为可能?

伊利亚·苏茨克维: 这是一个很棒的问题,对此我有很多看法。但不幸的是,我们生活在一个并非所有机器学习想法都可以自由讨论的世界里,这就是其中之一。大概有一种方法可以做到。我认为这是可以做到的。人类就是这样,我认为这就是它可以做到的证明。

不过可能还有另一个障碍,那就是人类神经元进行的计算可能比我们要多。如果那是真的,并且如果这起着重要作用,那么事情可能会更困难。但无论如何,我确实认为这指向了某种机器学习原理的存在,我对此有自己的看法。但不幸的是,环境使我很难详细讨论。

德瓦尔克什·帕特尔: 反正也没人听这播客,伊利亚。

【一步到位实现超级智能】

德瓦尔克什·帕特尔: 我很好奇。如果你说我们回到了研究时代,你在2012年到2020年也是亲历者。如果我们回到研究时代,现在的氛围会是什么样的?

例如,即使在 AlexNet 之后,用于运行实验的算力也在不断增加,前沿系统的规模也在不断增加。你是否认为现在的研究时代依然需要巨大的算力?还是你认为这需要回到档案馆去阅读旧论文?

你在谷歌、OpenAI 和斯坦福这些地方待过,那是研究氛围更浓厚的时候?我们应该期待社区里出现什么样的事情?

伊利亚·苏茨克维: 扩展时代的一个后果是,扩展吸干了房间里所有的空气(抢占了所有的注意力)。因为扩展占据了主导地位,每个人都开始跟风。我们要么处于这样一个世界:公司的数量比想法的数量多得多。实际上关于这点,硅谷有句俗话说“想法一文不值,执行才是一切”。人们常这么说,这话有道理。但后来我看到有人在推特上说:“如果想法这么廉价,怎么没人有想法呢?”我觉得这也是真的。

如果你从瓶颈的角度思考研究进展,有几个瓶颈。一个是想法,一个是将其实现的能力,这可能涉及算力也涉及工程。如果你回到90年代,比如说,有些人有很好的想法,如果他们有更大的计算机,也许他们能证明他们的想法是可行的。但他们做不到,所以他们只能做一个非常非常小的演示,无法说服任何人。所以那时的瓶颈是算力。

然后在扩展时代,算力增加了很多。当然,有个问题是需要多少算力,但算力是巨大的。算力大到足以让人觉得,要证明某个想法是可行的,并不显然需要增加那么多的算力。我给你一个类比。AlexNet 是在2个 GPU 上构建的。那是它使用的总算力。Transformer 是在8到64个 GPU 上构建的。2017年没有任何一篇 Transformer 论文的实验使用了超过64个 GPU,这大概相当于今天的2个 GPU 吧?ResNet 也是,对吧?你可以争辩说 o1的推理并不是世界上最耗算力的东西。

所以对于研究来说,你肯定需要一定量的算力,但远非显然需要史上绝对最大量的算力来进行研究。你可能会争辩,我也认为这是真的,如果你想构建绝对最好的系统,那么拥有更多的算力是有帮助的。特别是如果每个人都在同一个范式内,那么算力就会成为巨大的区分因素之一。

德瓦尔克什·帕特尔: 我是在问你历史,因为你当时就在现场。我不确定实际发生了什么。听起来那时可以用极少的算力开发出这些想法。但 Transformer 并没有立即成名。它变成了每个人都开始做的事情,然后在更高层级的算力上进行验证,并在其基础上进行构建。

伊利亚·苏茨克维: 没错。

德瓦尔克什·帕特尔: 如果你在 SSI (Safe Superintelligence Inc.) 有50个不同的想法,如果没有其他前沿实验室拥有的那种算力,你将如何知道哪一个是下一个 Transformer,哪一个是一碰就碎的?

伊利亚·苏茨克维: 我可以对此发表评论。简短的评论是,你提到了 SSI。具体对我们来说,SSI 用于研究的算力其实并不小。我想解释一下为什么。简单的数学就可以解释为什么我们用于研究的算力比人们想象的要可观。我解释一下。

SSI 筹集了30亿美元,无论从绝对意义上讲这都是一大笔钱。但你会说:“看看其他公司筹集的资金多得多。”但它们大量的算力用于推理 (inference)。这些大数字,这些大额贷款,是专门用于推理的。这是第一点。第二点,如果你想拥有一个做推理的产品,你需要庞大的工程师团队、销售人员。大量的研究需要致力于生产各种与产品相关的功能。所以当你看剔除那些之后、真正留给研究的是多少时,差距就变小了很多。

另一件事是,如果你在做不同的事情,你真的需要绝对最大的规模来证明它吗?我一点也不认为那是真的。我认为在我们的案例中,我们要证明——说服我们自己和其他任何人——我们正在做的事情是正确的,我们拥有充足的算力。

德瓦尔克什·帕特尔: 有公开估计称,像 OpenAI 这样的公司目前每年仅在实验上就花费大约50-60亿美元。这还不包括他们在推理等方面的支出。所以看起来他们每年运行研究实验的花费比你们的总融资额还多。

伊利亚·苏茨克维: 我认为这取决于你用它做什么。这是个怎么用的问题。在他们那种情况下,在其他人的情况下,对训练算力的需求要大得多。有更多不同的工作流,有不同的模态,就是有更多的东西。所以它变得碎片化了。

德瓦尔克什·帕特尔: SSI 将如何赚钱?

伊利亚·苏茨克维: 我对这个问题的回答是这样的。目前,我们只专注于研究,然后这个问题的答案会自己浮现。我认为会有很多可能的答案。

德瓦尔克什·帕特尔: SSI 的计划仍然是“直通 (straight shot)”超级智能吗?

伊利亚·苏茨克维: 也许吧。我认为这有其优点。我认为这很有优点,因为能置身于日常市场竞争之外是非常好的。但认为有两个原因可能会导致我们改变计划。一个是务实的,如果时间线变得很长,这是可能的。其次,我认为最强大、最好的 AI 面世并影响世界,这本身有很大的价值。

德瓦尔克什·帕特尔: 那为什么你的默认计划是直通超级智能?因为听起来 OpenAI、Anthropic 以及所有其他公司,他们明确的想法是:“看,我们有越来越弱的智能体,公众可以适应并为此做好准备。”为什么直接构建超级智能可能更好?

伊利亚·苏茨克维: 我会阐述正反两方面的理由。支持的理由是,当人们身处市场中时面临的一个挑战是,他们不得不参与“激烈的竞争 (rat race)”。这种竞争非常困难,因为它让你面临必须做出的艰难权衡。能说“我们要把这一切隔绝开来,只专注于研究,只有当我们准备好了才出来,在此之前绝不出来”是很好的。但反方观点也是有效的,这是两股对立的力量。反方观点是:“嘿,让世界看到强大的 AI 是有用的。让世界看到强大的 AI 是有用的,因为那是你能沟通它的唯一方式。”

德瓦尔克什·帕特尔: 呃,我想不仅仅是你能不能沟通这个想法——

伊利亚·苏茨克维: 沟通 AI,不是沟通想法。沟通 AI 本身。

德瓦尔克什·帕特尔: 你说的“沟通 AI”是什么意思?

伊利亚·苏茨克维: 假设你写了一篇关于 AI 的文章,文章说:“AI 将会是这样,AI 将会是那样,它将会是这个。”你读了之后说:“好吧,这是一篇有趣的文章。”现在假设你看到一个 AI 在做这个,一个 AI 在做那个。这是不可同日而语的。基本上我认为 AI 公之于众有很大的好处,这将是我们不完全“直通”的一个理由。

德瓦尔克什·帕特尔: 我想甚至不只如此,虽然我确实认为那是重要的一部分。另一件大事是,我想不出人类工程和研究中还有哪个学科,其最终产物主要是通过“思考如何让它安全”变安全的,而不是……为什么今天每英里的飞机坠毁率比几十年前低得多?为什么现在发现 Linux 的 Bug 比几十年前难得多?我认为这主要是因为这些系统被部署到了世界上。你发现了故障,这些故障被修正,系统变得更鲁棒了。

我不确定为什么 AGI (通用人工智能) 和超人智能会有什么不同,尤其是考虑到——我希望我们会谈到这个——看起来超级智能的危害不仅仅是关于有一个经典的“曲别针制造机” (paper clipper) 思想实验在那里。而是一个非常强大的东西,我们甚至不知道如何概念化人们与它的互动,人们会用它做什么。让人们循序渐进地接触它似乎是一个更好的方式,以此来分散它的影响并帮助人们做好准备。

【SSI 的模型将在部署中学习】

伊利亚·苏茨克维: 嗯,我认为关于这一点,即使在“直通”方案中,你仍然会进行渐进式的发布,我是这样设想的。渐进主义是任何计划的固有组成部分。问题只是你推出的第一个东西是什么。这是第一点。

第二,我相信你比其他人更提倡“持续学习 (continual learning)”,实际上我认为这是一个重要且正确的事情。原因如下。我要给你另一个语言如何影响思维的例子。在这个例子中,我坚持认为有两个词塑造了所有人的思维。第一个词:AGI。第二个词:预训练。让我解释一下。

AGI 这个术语,为什么这个术语存在?这是一个非常特殊的术语。为什么它存在?这是有原因的。在我看来,AGI 这个术语的存在,与其说是因为它是某种智能终极状态的重要、本质的描述,不如说它是对另一个已存在术语的反应,那个术语就是“专用人工智能 (Narrow AI)”。如果你回顾游戏 AI、跳棋 AI、国际象棋 AI、电脑游戏 AI 的古代历史,每个人都会说,看这个专用智能。当然,国际象棋 AI 可以击败卡斯帕罗夫,但它干不了别的。它是如此狭隘,人工专用智能。所以作为回应,作为对此的反应,有些人说,这不行。它太狭隘了。我们需要通用 AI,一个能做所有事情的 AI。那个术语获得了很多关注。

第二个获得很多关注的是预训练,特别是预训练的配方。我认为人们现在做 RL 的方式可能正在消除预训练的这种概念印记。但预训练有这个属性。你做越多的预训练,模型在所有方面都变得越好,或多或少是均匀的。通用 AI。预训练带来 AGI。

但 AGI 和预训练发生的事情是,在某种意义上它们“定调太高了 (overshot the target)”。如果你思考“AGI”这个术语,特别是在预训练的背景下,你会意识到人类并不是 AGI。是的,确实有技能基础,但人类缺乏大量的知识。相反,我们依赖持续学习。

所以当你思考,“好吧,假设我们成功了,我们制造出了某种安全的超级智能。”问题是,你如何定义它?它处于持续学习曲线的哪个阶段?

我制造了一个超高智商的15岁少年,非常渴望大展拳脚。他们知道的不多,是个好学生,非常渴望。你去当程序员,你去当医生,去学习。所以你可以想象,部署本身将涉及某种学习试错期。这是一个过程,而不是你扔出一个成品。

德瓦尔克什·帕特尔: 我明白了。你是说你所指的超级智能并不是某种已经知道如何做经济中每一项工作的完成体思维。因为,比如最初的 OpenAI 章程或其他文件定义的 AGI 是:它能做每一项工作,能做人类能做的每一件事。你提议的相反是一个能够 学会 做每一项工作的思维,而那才是超级智能。

伊利亚·苏茨克维: 是的。

德瓦尔克什·帕特尔: 但是一旦你有了这个学习算法,它被部署到世界上,就像人类劳动者加入一个组织一样。

伊利亚·苏茨克维: 正是。

德瓦尔克什·帕特尔: 这看起来可能会发生两件事之一,也许这两件都不会发生。一,这个超高效的学习算法变成了超人,在 ML 研究任务上变得和你一样好,甚至可能更好。结果算法本身变得越来越超人。

另一件是,即使那没有发生,如果你有一个单一模型——这是你明确的愿景——模型的实例被部署到整个经济中做不同的工作,学习如何做那些工作,在工作中持续学习,学会任何人能学会的所有技能,但同时学会它们,然后合并它们的学习成果,你基本上就有了一个在功能上成为超级智能的模型,即使软件本身没有任何递归自我改进。因为你现在有了一个能做经济中每一项工作的模型,而人类无法以同样的方式合并我们的大脑。所以你是否预期广泛部署会带来某种智能爆炸?

伊利亚·苏茨克维: 我认为很可能会有快速的经济增长。我认为随着广泛部署,你可以提出两个相互冲突的论点。一个是,一旦你真的达到了那种拥有一个能快速学会做事的 AI 并且你有很多个这样的 AI 的程度,除非有某种监管阻止它(顺便说一句,可能会有),否则将有一股强大的力量将其部署到经济中。

但是关于广泛部署带来非常快速的经济增长的想法,我认为是非常可能的。问题是它会有多快。我觉得这很难知道,因为一方面你有了这个非常高效的工人。另一方面,世界真的很大,有很多东西,而那些东西以不同的速度移动。但另一方面,现在 AI 可以……所以我认为非常快速的经济增长是可能的。我们会看到各种各样的事情,比如不同的国家有不同的规则,那些规则更友好的国家,经济增长会更快。很难预测。

【对齐 (Alignment)】

德瓦尔克什·帕特尔: 在我看来,这是一种非常不稳定的处境。在极限情况下,我们知道这应该是可能的。如果你有一个在学习方面和人类一样好,但能合并它的大脑——以人类无法合并的方式合并不同实例——的东西,这似乎在物理上应该是可能的。人类是可能的,数字计算机是可能的。你只需要把这两者结合起来就能产生这种东西。

这种东西似乎也非常强大。经济增长是一种说法。戴森球 (Dyson sphere) 也是很多经济增长。但另一种说法是,你将在可能非常短的时间内拥有……你在 SSI 雇人,六个月后,他们可能有净产出。人类学得很快,而这个东西变得越来越聪明,速度非常快。你如何考虑让这一切顺利进行?为什么 SSI 定位于能把这事做好?基本上我想问的是,SSI 的计划是什么。

伊利亚·苏茨克维: 我的想法发生变化的一个方面是,我现在更看重 AI 的渐进式部署和提前部署。关于 AI 一个非常困难的事情是,我们谈论的是尚不存在的系统,很难想象它们。

我认为正在发生的一件事是,实际上,很难“感觉”到 AGI。很难感觉到 AGI。我们可以谈论它,但这就像你还没老的时候谈论年老体衰是什么感觉。你可以谈论,可以试图想象,但这很难,你会回到那还没发生的现实中。我认为很多关于 AGI 及其未来力量的问题源于它很难被想象。未来的 AI 会不同。它会很强大。确实,AI 和 AGI 的整个问题是什么?整个问题就是力量。整个问题就是力量。

当力量真的很大时,会发生什么?我在过去一年改变想法的一点——这种想法的改变,我会稍微留点余地,可能会反向传播 (back-propagate) 到我们公司的计划中——是如果它很难想象,你会做什么?你必须展示这个东西。你必须展示这个东西。我坚持认为,大多数从事 AI 工作的人也无法想象它,因为它与人们每天看到的东西太不一样了。

我确实坚持,有一件事我预测会发生。这是一个预测。我坚持认为随着 AI 变得更强大,人们会改变他们的行为。我们会看到各种前所未有的事情,这些事情现在还没有发生。我会举些例子。我认为无论好坏,前沿公司将在发生的事情中扮演非常重要的角色,政府也是。我想你会看到的那种事情,你已经看到了开端,那就是作为激烈竞争对手的公司开始在 AI 安全上合作。你可能看到 OpenAI 和 Anthropic 迈出了第一小步,但这以前是不存在的。这是我在大概三年前的一次演讲中预测的事情,这种事情会发生。我也坚持认为,随着 AI 继续变得更强大,更肉眼可见地强大,政府和公众也会有采取行动的意愿。我认为这是一种非常重要的力量,即展示 AI。

这是第一点。第二点,好吧,所以 AI 正在被构建。需要做什么?我坚持认为会发生的一件事是,目前从事 AI 工作的人,我坚持认为 AI 并不让人感觉强大,是因为它会犯错。我确实认为在某个时刻,AI 会开始让人感觉强大。我认为当这种情况发生时,我们会看到所有 AI 公司在对待安全的方式上发生巨大变化。他们会变得更加多疑 (paranoid)。我说这是一个预测,我们会看到它发生。我们看看我是否正确。但我认为这是会发生的事情,因为他们会看到 AI 变得更强大。目前发生的一切,我坚持认为是因为人们看着今天的 AI,很难想象未来的 AI。

还有第三件事需要发生。我是从更广泛的角度谈论,不只是从 SSI 的角度,因为你问了关于我们公司的事。问题是,公司应该渴望建立什么?它们应该渴望建立什么?有一个每个人都深陷其中的大想法,就是自我进化的 AI。为什么会这样?因为想法比公司少。但我坚持认为有更好的东西值得建立,我认为每个人都会想要那个。

那就是一个稳健对齐、专门关爱感知生命 (sentient life) 的 AI。我认为特别是,有理由认为建立一个关爱感知生命的 AI 比建立一个仅关爱人类生命的 AI 更容易,因为 AI 本身也是有感知的。如果你考虑到像镜像神经元 (mirror neurons) 和人类对动物的同情心之类的东西,你可以说这不够大,但它存在。我认为这是从我们用模拟自己的同一套神经回路来模拟他人这一事实中涌现出来的属性,因为那是最高效的做法。

德瓦尔克什·帕特尔: 所以即使你让 AI 关爱感知生命——我也并不清楚如果你解决了对齐问题这是否是你应该尝试去做的——这仍然会是这样:大多数感知生命将是 AI。将会有数万亿,最终数千万亿的 AI。人类将只是感知生命中非常小的一部分。所以如果不清楚目标是对这个未来文明的某种人类控制,我不清楚这是否是最好的标准。

伊利亚·苏茨克维: 确实。这可能不是最好的标准。我要说两点。第一,关爱感知生命,我认为这有其优点。它应该被考虑。我认为如果有一份简短的想法清单供公司在这种情况下使用,那会有帮助。这是第二点。

第三,我认为如果最强大的超级智能的力量在某种程度上被设定上限,那将会有实质性的帮助,因为这会解决很多这些担忧。至于怎么做,我不确定,但我认为当你谈论真正、真正强大的系统时,那将有实质性的帮助。

德瓦尔克什·帕特尔: 在继续对齐讨论之前,我想深入探讨那一点。顶部有多少空间?你如何看待超级智能?利用这个学习效率的想法,你是否认为它只是学习新技能或新知识极快?它是否只是拥有更大的策略库?中心是否有一个单一的、更强大或更大的“它”?如果是这样,你想象这个东西与其余人类文明相比会像神一样吗,还是感觉只是另一个智能体,或者另一组智能体?

伊利亚·苏茨克维: 这是一个不同的人有不同直觉的领域。我认为它肯定会非常强大。我认为最可能发生的是,大约在同一时间会有多个这样的 AI 被创造出来。我认为如果集群足够大——比如如果集群真的是大陆规模的——那个东西真的可能非常强大,确实如此。如果你真的拥有一个大陆规模的集群,那些 AI 可能会非常强大。我能告诉你的是,如果你谈论的是极其强大的 AI,真正极其强大的,如果它们能受到某种约束,或者有某种协议之类的东西,那就太好了。

对超级智能的担忧是什么?解释这种担忧的一种方式是什么?如果你想象一个足够强大的系统,真的足够强大——你可以说你需要做一些理智的事情,比如非常专一地关爱感知生命——我们可能不喜欢其结果。真的是这样。

顺便说一句,也许答案是你不要构建通常意义上的 RL 智能体。我会指出几点。我认为人类是半强化学习 (semi-RL) 智能体。我们追求奖励,然后情感或其他东西让我们对奖励感到厌倦,我们再去追求不同的奖励。市场是一种非常短视的智能体。进化也是一样。进化在某些方面非常聪明,但在其他方面非常愚蠢。政府被设计成三方之间永无止境的斗争,这也有影响。所以我认为像这样的事情。

另一件让讨论变得困难的事情是,我们谈论的是不存在的系统,是我们不知道如何构建的系统。这是另一件事,实际上这也是我的信念。我认为人们现在正在做的事情会走一段路,然后逐渐平淡 (peter out)。它会继续改进,但它也不会是“那个东西 (It)”。我们不知道如何构建“那个东西”,很多东西取决于理解可靠的泛化。

我还要说一件事。关于导致对齐困难的一件事,你可以说你学习人类价值观的能力是脆弱的。然后你优化它们的能力是脆弱的。你实际上学会了优化它们。你难道不能说,“这难道不都是不可靠泛化的实例吗?”为什么人类看起来泛化得好得多?如果泛化好得多呢?在这种情况下会发生什么?会有什么效果?但这些问题目前仍然无法回答。

德瓦尔克什·帕特尔: 人们该如何思考 AI 发展顺利是什么样子的?你已经勾勒出 AI 可能如何演变。我们将拥有这种持续学习的智能体。AI 将非常强大。也许会有很多不同的 AI。你如何看待许多大陆规模的计算智能四处活动?那有多危险?我们如何让它不那么危险?我们如何以一种保护平衡的方式做到这一点,因为外面可能有未对齐的 AI 和坏人?

伊利亚·苏茨克维: 这是我喜欢“关爱感知生命的 AI”的一个原因。我们可以辩论它是好是坏。但如果这些引人注目的系统中前 N 个确实关爱、热爱人类或什么的,关爱感知生命,显然这也是需要实现的。这需要被实现。所以如果前 N 个系统实现了这一点,那我可以看到事情进展顺利,至少在相当长的一段时间内。

然后就是长期会发生什么的问题。你如何实现长期均衡?我认为那里也有一个答案。我不喜欢这个答案,但它需要被考虑。

从长远来看,你可能会说:“好吧,如果你有一个强大的 AI 存在的世界,在短期内,你可以说你有普遍的高收入 (universal high income)。你们都有普遍的高收入,我们都过得很好。”但佛教徒怎么说?“变化是唯一的永恒 (Change is the only constant)。”事情在变。有某种政府、政治结构的东西,它在变,因为这些东西有保质期。某种新的政府形式出现并运作,过了一段时间它停止运作。这是我们一直看到的事情。

所以我认为对于长期均衡,一种方法是你可以说也许每个人都会有一个 AI 听从他们的命令,这很好。如果这能无限期维持下去,那是真的。但那个缺点是,AI 去为那个人赚钱,在政治领域为他们的需求辩护,也许然后写一份小报告说:“好吧,这是我所做的,这是情况,”那个人说:“太棒了,继续保持。”但这人不再是参与者了。那你可以说这是一种不稳定的处境。

我要先声明我不喜欢这个解决方案,但它是一个解决方案。解决方案是如果人们通过某种 Neuralink++ (脑机接口升级版) 变成半 AI。因为结果将会是,现在 AI 理解了一些东西,我们也理解了它,因为现在的理解是整体传输的。所以现在如果 AI 处于某种情况,你自己也完全卷入那种情况中。我认为这是均衡的答案。

德瓦尔克什·帕特尔: 我在想,数百万年——甚至在很多情况下,数十亿年——前在完全不同的环境中进化出的情感至今仍在如此强烈地指导我们的行动,这一事实是否就是对齐成功的例子。

把我的意思说清楚——我不知道称之为价值函数还是奖励函数更准确——但脑干有一个指令说:“与更成功的人交配。”大脑皮层是理解在现代语境下成功意味着什么的部分。但脑干能够对齐大脑皮层并说:“无论你认为成功是什么——我不够聪明去理解那是什么——你仍然要去追求这个指令。”

伊利亚·苏茨克维: 我认为有一个更普遍的观点。实际上,进化是如何编码高级欲望的,这简直是个谜。很容易理解进化会赋予我们对闻起来好的食物的欲望,因为气味是一种化学物质,所以只要追求那种化学物质就行了。很容易想象进化做那件事。

但进化也赋予了我们所有这些社会欲望。我们真的在乎被社会积极看待。我们在乎拥有良好的地位。所有这些我们拥有的社会直觉,我强烈感觉它们是内置的。我不知道进化是怎么做到的,因为这是一个在大脑中表征的高级概念。

假设你在乎某种社会事物,它不像气味那种低级信号。它不是某种有传感器的东西。大脑需要进行大量的处理,拼凑大量的信息碎片来理解社交上发生了什么。不知何故,进化说:“这就是你应该关心的。”它是怎么做到的?

而且它实现这一点的速度也很快。所有这些我们关心的复杂的社会事物,我认为它们进化得相当晚近。进化很容易就硬编码了这种高级欲望。我不知道有什么好的假说能解释这是怎么做到的。我有一些一直在琢磨的想法,但没有一个是令人满意的。

德瓦尔克什·帕特尔: 特别令人印象深刻的是,如果是你在有生之年学到的欲望,那是有道理的,因为你的大脑是智能的。你有能力学会智能的欲望是有道理的。也许这不是你的观点,但理解它的一种方式是,欲望是内置于基因组中的,而基因组并不智能。但你不知何故能够描述这个特征。甚至不清楚你如何定义那个特征,而你可以把它构建进基因里。

伊利亚·苏茨克维: 基本上是,或者也许换个说法。如果你思考基因组可用的工具,它说:“好吧,这是一个构建大脑的配方。”你可以说:“这是一个把多巴胺神经元连接到嗅觉传感器的配方。”如果气味是某种好闻的气味,你就想吃它。

我可以想象基因组做这件事。我主张的是很难想象基因组说你应该关心某种复杂的计算,而这计算是你整个大脑、大脑的一大块在做的。这只是我的主张。我可以告诉你关于它是如何做到的一个推测,然后我会解释为什么这个推测可能是错的。

大脑有脑区。我们有皮层。它有所有那些脑区。皮层是均匀的,但脑区和皮层中的神经元大多只跟它们的邻居说话。这解释了为什么会有脑区。因为如果你想做某种语音处理,所有处理语音的神经元都需要互相交流。而且因为神经元大多只能跟附近的邻居交流,所以它必须是一个区域。

所有区域在人与人之间的位置大多是相同的。所以也许进化确实硬编码了大脑上的一个位置。所以它说:“哦,当大脑的 GPS 坐标某某某,当那里激活时,这就是你应该关心的。”也许那就是进化所做的,因为那属于进化的工具箱。

德瓦尔克什·帕特尔: 是的,虽然有一些例子,比如天生失明的人,他们皮层的那个区域被另一种感官占用了。我不知道,但如果是那些需要视觉信号的欲望或奖励函数,对于那些皮层不同区域被征用的人来说如果不再起作用,我会很惊讶。

例如,如果你不再拥有视觉,你是否还能感觉到我希望周围的人喜欢我之类的感觉,通常这也是有视觉线索的。

伊利亚·苏茨克维: 我完全同意这点。我认为对此理论有一个更强的反驳。有些人童年时期切除了一半大脑,他们仍然拥有所有的脑区。但不知何故它们都移到了一个半球,这表明脑区的位置不是固定的,所以那个理论是不对的。

如果它是真的会很酷,但它不是。所以我认为这是一个谜。但这是一个有趣的谜。事实是不知何故进化能够赋予我们非常非常可靠地关心社会事物的能力。即使是有各种奇怪精神状况、缺陷和情感问题的人,也倾向于关心这个。

【“我们是一家纯正的研究型公司”】

德瓦尔克什·帕特尔: SSI 计划做哪些不同的事情?据推测,你们的计划是在这个时刻到来时成为前沿公司之一。据推测,你创办 SSI 是因为你想:“我觉得我有一种其他公司没有的、安全地实现这一目标的方法。”那个不同点是什么?

伊利亚·苏茨克维: 我会这样描述,有一些我认为有希望的想法,我想调查它们,看看它们是否真的有希望。真的就这么简单。这是一种尝试。如果这些想法被证明是正确的——我们要讨论的这些关于理解泛化的想法——那么我认为我们将拥有一些有价值的东西。

它们会被证明是正确的吗?我们在做研究。我们是一家纯正的“研究时代”公司。我们在取得进展。实际上过去一年我们取得了相当不错的进展,但我们需要继续取得更多进展,更多研究。我就是这么看的。我看作这是一种尝试成为一个声音和参与者。

德瓦尔克什·帕特尔: 你的联合创始人兼前 CEO 最近离开去了 Meta,人们问:“好吧,如果有大量突破正在发生,这看起来是一件不太可能发生的事。”我想知道你如何回应。

伊利亚·苏茨克维: 对此,我只想重申几个可能被遗忘的事实。我认为这些提供背景的事实解释了情况。背景是我们当时正在以320亿美元的估值融资,然后 Meta 进来提出收购我们,我说不。但在某种意义上我的前联合创始人说了是。结果,他也得以享受大量的近期流动性,他是 SSI 唯一加入 Meta 的人。

德瓦尔克什·帕特尔: 听起来 SSI 的计划是当你们到达人类历史这个非常重要的时期——拥有超人智能时——成为一家处于前沿的公司。你们有关于如何让超人智能顺利发展的想法。但其他公司也会尝试他们自己的想法。SSI 在让超级智能顺利发展的方法上有什么独特之处?

伊利亚·苏茨克维: SSI 最大的不同在于其技术路线。我们有不同的技术路线,我认为那是值得的,我们正在追求它。

我坚持认为最终策略会趋同。我认为策略会趋同,在某个时刻,随着 AI 变得更强大,每个人的策略应该是什么将会变得或多或少清晰起来。它应该是类似这样的:你需要找到某种互相交流的方式,并且你希望你的第一个真正的超级智能 AI 是对齐的,并且以某种方式关爱感知生命,关爱人类,民主的,或者这些特征的某种组合。

我认为这是每个人都应该争取的条件。这也是 SSI 正在争取的。我认为这一次,如果不是已经发生了的话,所有其他公司都会意识到他们也在朝着同样的目标努力。我们拭目以待。我认为随着 AI 变得更强大,世界将真正改变。我认为事情会变得非常不同,人们的行为也会非常不同。

德瓦尔克什·帕特尔: 说到预测,你对你描述的这个系统——它能像人类一样学习,并因此随之成为超人——的预测是什么?

伊利亚·苏茨克维: 我认为大概5到20年。

德瓦尔克什·帕特尔: 5到20年?

伊利亚·苏茨克维: 嗯。

德瓦尔克什·帕特尔: 我只是想推演一下你眼中的世界是如何到来的。比如,我们还有几年时间,其他公司继续当前的路线然后停滞不前。“停滞不前”在这里意味着他们的收入不超过几千亿美元?你如何思考停滞不前的含义?

伊利亚·苏茨克维: 我认为停滞不前看起来会……在所有不同的公司之间看起来会非常相似。可能会是这样的。我不确定,因为我认为即使停滞不前,我认为这些公司也能创造惊人的收入。也许不是利润,因为他们需要努力使自己彼此区分开来,但收入肯定有。

德瓦尔克什·帕特尔: 但在你的模型中暗示,当正确的解决方案真的出现时,所有公司之间会出现趋同。我很好奇你为什么认为会这样。

伊利亚·苏茨克维: 我更多是在谈论对齐策略上的趋同。我认为技术路线上的最终趋同也可能会发生,但我当时是在暗示对齐策略的趋同。到底应该做什么事?

德瓦尔克什·帕特尔: 我只是想更好地理解你如何看待未来的展开。目前,我们有这些不同的公司,你预计他们的方法会继续产生收入但达不到这种类人学习者的高度。所以现在我们有这些不同的公司分支。有你,有 Thinking Machines,还有一堆其他实验室。也许其中一个找到了正确的方法。但随后他们产品的发布让其他人清楚了如何做这件事。

伊利亚·苏茨克维: 我认为如何做这件事并不会变得清晰,但有些不同的东西是可能的这一点会变得清晰,那就是信息。人们随后会试图弄清楚那是如何工作的。但我确实认为,这里没有提到、没有讨论的一件事是,随着 AI 能力的每一次提升,我认为会在做事方式上发生某种变化,但我不知道确切是哪些。我认为这将是重要的,但我还无法详细说明那到底是什么。

德瓦尔克什·帕特尔: 默认情况下,你会预期拥有那个模型的公司会获得所有这些收益,因为他们拥有正在世界上积累技能和知识的模型。有什么理由认为这种好处会被广泛分配,而不是仅仅落在任何最先让这种持续学习循环运转起来的模型公司手中?

伊利亚·苏茨克维: 这是我认为将会发生的事情。第一,让我们看看过去的 AI 是如何发展的。一家公司取得了一个进步,另一家公司争先恐后,过了一段时间也做出了一些类似的东西,然后他们开始在市场上竞争并压低价格。所以我认为从市场角度来看,那里也会发生类似的事情。

顺便说一句,我们谈论的是美好的世界。什么是美好的世界?就是我们拥有这些强大的人类般的学习者,而且……顺便说一句,也许关于超级智能 AI 的规格还有另一件事我们还没讨论,我认为值得考虑。那就是你把它做得专一,它可以既有用又专一。你可以拥有很多专一的超级智能 AI。

但假设你有很多这样的 AI,有一家公司从中赚取了大量利润。然后你有另一家公司进来开始竞争。竞争运作的方式是通过专业化。竞争喜欢专业化。你在市场上看到这一点,在进化中也看到这一点。你将会有很多不同的生态位,你将会有很多占据不同生态位的不同公司。在这个世界里我们可能会说,一家 AI 公司在某个真正复杂的经济活动领域好得多,而另一家公司在另一个领域更好。而第三家公司非常擅长诉讼。

德瓦尔克什·帕特尔: 这难道不被类人学习所暗示的东西反驳了吗?那就是它能学习……

伊利亚·苏茨克维: 它可以,但你有积累的学习。你有巨大的投入。你花了很多算力才变得真正、真正擅长这件事,真正非凡。别人花了很多算力和很多经验才在另一件事上变得真正擅长。你应用了大量的人类学习才到达那里,但现在你处于这个高点,别人会说:“看,我不想从头开始学你已经学过的东西。”

德瓦尔克什·帕特尔: 我想这需要许多不同的公司同时开始那个类人持续学习智能体,这样他们才能在不同的分支开始他们的树搜索。但如果一家公司先得到了那个智能体,或者先得到了那个学习者,这确实看起来像……好吧,如果你只考虑经济中的每一份工作,让一个实例学习每一份工作对一家公司来说似乎是可行的。

伊利亚·苏茨克维: 这是一个有效的论点。我的强烈直觉是事情不会那样发展。论点说它会那样发展,但我的强烈直觉是它不会。在理论上,理论和实践没有区别。在实践中,是有区别的。我认为这会是那种情况之一。

德瓦尔克什·帕特尔: 很多人的递归自我改进模型字面上、明确地陈述我们将会在一个服务器里有一百万个伊利亚,他们提出不同的想法,这将导致超级智能非常快地涌现。

你对你正在做的事情的可并行化有什么直觉吗?复制伊利亚有什么收益?

伊利亚·苏茨克维: 我不知道。我认为肯定会有收益递减,因为你需要的是思维不同的人,而不是相同的人。如果有我的字面复制品,我不确定你能得到多少增量价值。思维不同的人,那才是你想要的。

【自我对弈与多智能体】

德瓦尔克什·帕特尔: 为什么如果你看不同的模型,即使是由完全不同的公司发布的、在可能不重叠的数据集上训练的,大语言模型 (LLM) 彼此之间相似得疯狂?

伊利亚·苏茨克维: 也许数据集并不像看起来那么不重叠。

德瓦尔克什·帕特尔: 但在某种意义上,即使个人可能比未来的 AI 生产力低,也许人类团队比 AI 团队拥有更多样性是有道理的。我们要如何激发 AI 之间有意义的多样性?我觉得只是提高温度 (temperature) 只会导致胡言乱语。你需要更像不同科学家有不同偏见或不同想法的那种东西。如何在 AI 智能体之间获得那种多样性?

伊利亚·苏茨克维: 所以我认为没有多样性的原因是预训练。所有预训练模型几乎都是一样的,因为它们在相同的数据上预训练。现在 RL 和后训练 (post-training) 是开始出现一些分化的地方,因为不同的人想出不同的 RL 训练。

德瓦尔克什·帕特尔: 我听你过去暗示过把自我对弈 (self-play) 作为一种获取数据或将智能体与同等智能的其他智能体匹配以启动学习的方式。我们该如何思考为什么没有关于这种东西在 LLM 上起作用的公开提案?

伊利亚·苏茨克维: 我想说有两点。我认为自我对弈有趣的原因是因为它提供了一种仅使用算力而不使用数据来创建模型的方法。如果你认为数据是终极瓶颈,那么仅使用算力就非常有趣。所以这让它变得有趣。

问题是自我对弈,至少它过去的做法——当你有不知何故彼此竞争的智能体时——它只对开发某一套技能有好处。它太狭窄了。它只对谈判、冲突、某些社交技能、制定战略那类东西有好处。如果你在乎那些技能,那么自我对弈会有用。

实际上,我认为自我对弈确实找到了归宿,只是形式不同。像辩论、证明者-验证者 (prover-verifier),你有某种作为裁判的大模型 (LLM-as-a-Judge),它也被激励去发现你工作中的错误。你可以说这不完全是自我对弈,但我相信这是人们正在做的相关的对抗性设置。

真正的自我对弈是更广泛的智能体间竞争的一个特例。对竞争的自然反应是试图变得不同。所以如果你把多个智能体放在一起,你告诉它们:“你们都需要研究某个问题,你是一个智能体,你在考察其他人都在研究什么,”它们会说:“好吧,如果他们已经采取了这种方法,我就不该再追求它了。我应该追求一些有差异化的东西。”所以我认为像这样的东西也可以为方法的多样性创造激励。

【研究品味】

德瓦尔克什·帕特尔: 最后一个问题:什么是研究品味?你显然被认为是世界上 AI 研究品味最好的人。你是深度学习历史上所有大事的合著者,从 AlexNet 到 GPT-3等等。它是什么?你如何描述你是怎么想出这些点子的?

伊利亚·苏茨克维: 我可以就我个人评论这一点。我认为不同的人做法不同。有一件事指导我个人,那就是关于 AI 应该是什么样的一种审美,这是通过思考人是怎样的,但是是正确地思考。你可以很容易地错误地思考人类是怎样的,但正确地思考意味着什么?

我给你举些例子。人造神经元的想法直接受大脑启发,这是个很棒的想法。为什么?因为你会说大脑有各种不同的组织,有沟回,但沟回可能不重要。为什么我们认为神经元重要?因为它们数量很多。这感觉是对的,所以你想要神经元。你想要某种局部的学习规则来改变神经元之间的连接。大脑这么做感觉是合理的。

分布式表示 (distributed representation) 的想法。大脑对经验做出反应,因此我们的神经网络应该从经验中学习的想法。大脑从经验中学习,神经网络应该从经验中学习。你会问自己,什么是根本的,什么不是根本的?事物应该是怎样的。

我认为这在很大程度上一直指导着我,从多个角度思考,几乎是在寻找美,美和简洁。丑陋,这里容不下丑陋。它是美、简洁、优雅、受大脑启发的正确性。所有这些东西需要同时存在。它们存在得越多,你就越能对一个自上而下的信念充满信心。

当实验结果与你作对时,支撑你的正是这种自上而下的信念。因为如果你总是相信数据,嗯,有时候你做的事情是对的,但有个 Bug。但你不知道有个 Bug。你怎么分辨是有个 Bug 还是你应该继续调试,或者结论是方向错了?是自上而下的信念。你可以说事情必须是这样的。像这样的东西必须行得通,因此我们要继续做下去。那就是自上而下的信念,它基于这种多层面的美和受大脑的启发。

德瓦尔克什·帕特尔: 好,我们就聊到这里。

伊利亚·苏茨克维: 非常感谢。

德瓦尔克什·帕特尔: 伊利亚,非常感谢。

伊利亚·苏茨克维: 好的。很感激。

德瓦尔克什·帕特尔: 太棒了。

伊利亚·苏茨克维: 是的,我很享受。

德瓦尔克什·帕特尔:

是的,我也是。

延伸阅读
相关推荐
热点推荐
巩立姣揭秘里约奥运失利原因:吃药避开生理期失败,比赛当天来了

巩立姣揭秘里约奥运失利原因:吃药避开生理期失败,比赛当天来了

米修体育
2025-11-27 14:32:01
在网购这方面,年轻人自叹不如!还有什么稀奇东西是老年人买不到的

在网购这方面,年轻人自叹不如!还有什么稀奇东西是老年人买不到的

前沿天地
2025-11-23 14:29:17
华与华拒绝道歉,罗永浩甩出录音“王炸”!

华与华拒绝道歉,罗永浩甩出录音“王炸”!

互联网品牌官
2025-11-27 15:09:06
特朗普:不邀请南非参加 明年G20峰会

特朗普:不邀请南非参加 明年G20峰会

每日经济新闻
2025-11-27 12:44:29
揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

混沌录
2025-11-08 16:36:03
周四收盘:今天,A股涨到3895回落,不出意外,周五可能会这样走

周四收盘:今天,A股涨到3895回落,不出意外,周五可能会这样走

振华观史
2025-11-27 13:59:53
迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

户外钓鱼哥阿勇
2025-11-11 06:16:51
董存瑞的最终遗言,并不是“为了新中国,前进”?老战友:就两字

董存瑞的最终遗言,并不是“为了新中国,前进”?老战友:就两字

兴趣知识
2025-11-27 03:16:14
退休后主动投案!四川原正厅级干部被查

退休后主动投案!四川原正厅级干部被查

荥经生活网
2025-11-27 11:02:21
青岛饭店偷虾后续:市监局立案,文旅局关评论区,店家说法太气人

青岛饭店偷虾后续:市监局立案,文旅局关评论区,店家说法太气人

鋭娱之乐
2025-11-26 20:49:59
又一大佬跑路了!套现266亿人民币,一次性卖掉京东所有股份

又一大佬跑路了!套现266亿人民币,一次性卖掉京东所有股份

寒士之言本尊
2025-11-24 18:02:04
回顾四川女教师与黑人视频被流出:如此恶性传播,坑害了多少人?

回顾四川女教师与黑人视频被流出:如此恶性传播,坑害了多少人?

就一点
2025-10-11 10:42:22
“我被骗了!免费马戏表演!”广州多人中招!别围观!不要买!广东多地小区、公园附近已出现

“我被骗了!免费马戏表演!”广州多人中招!别围观!不要买!广东多地小区、公园附近已出现

羊城攻略
2025-11-26 20:20:10
被删就再发!饶毅接连质疑新当选院士含金量不足,中科院未回应

被删就再发!饶毅接连质疑新当选院士含金量不足,中科院未回应

知晓科普
2025-11-26 09:40:55
消失的上海顶流

消失的上海顶流

包邮区
2025-11-27 07:34:35
业界00后“腿神”「森日向子」,又纯又欲!

业界00后“腿神”「森日向子」,又纯又欲!

吃瓜党二号头目
2025-11-24 08:53:59
大学教授怒批中学生接送行为:巨婴式养娃!遭家长霸气回怼!

大学教授怒批中学生接送行为:巨婴式养娃!遭家长霸气回怼!

大爱三湘
2025-11-25 21:48:53
新华社记者在基辅街头偶遇乌军士兵:4年里7个好友殒命战场

新华社记者在基辅街头偶遇乌军士兵:4年里7个好友殒命战场

澎湃新闻
2025-11-27 12:25:02
浙江知名电台主持,40岁月工资到手3377,裸辞后卖米线日入7000块

浙江知名电台主持,40岁月工资到手3377,裸辞后卖米线日入7000块

阿讯说天下
2025-11-23 12:13:31
前枪手8000万巨星将迎娶成人女星:从业11年+将息影 130万粉丝不舍

前枪手8000万巨星将迎娶成人女星:从业11年+将息影 130万粉丝不舍

风过乡
2025-11-26 09:51:21
2025-11-27 16:52:49

科技要闻

靠小米模式,它想做机器人关节的"英伟达"

头条要闻

香港大火警方发现2点不寻常 有人崩溃:我全家都在里面

头条要闻

香港大火警方发现2点不寻常 有人崩溃:我全家都在里面

体育要闻

不是哥们儿,拿我当莫兰特整?

娱乐要闻

香港五级大火令人揪心 一众明星发声

财经要闻

中金资本投资往事

汽车要闻

明年二季度交付 阿斯顿·马丁Valhalla量产版中国首秀

态度原创

亲子
教育
游戏
时尚
军事航空

亲子要闻

家长如果发现孩子屁股上方有个坑,千万不能掉以轻心

教育要闻

11月27日 ,南京市中华中学在奥体中心举行运动会。师生齐上阵,燃动全场

时间暂停弹幕Roguelike 《时间掠夺者亨迪》今日于Steam & Stove双平台正式上线

“聪明的阿凡提”,来自土耳其?

军事要闻

白宫附近国民警卫队员遭枪击

无障碍浏览 进入关怀版
×