网易首页 > 网易号 > 正文 申请入驻

奥特曼首揭GPT-4.5内幕,一个bug搞崩10万GPU!5人即可重训GPT-4

0
分享至

新智元报道

编辑:编辑部 NYH

【新智元导读】GPT-4.5比GPT-4聪明10倍!其背后的研发故事却鲜为人知。奥特曼携OpenAI团队首次敞开心扉,分享了幕后细节。从海量算力引发的「基础设施危机」,到「torch.sum bug」带来的意外突破,团队讲述了在挑战中实现智能飞跃。

GPT-4.5出世一个多月,鲜有人知其背后研发故事。

今天凌晨,奥特曼与三位核心研究员在线开启播客对谈,首次揭开了GPT-4.5从愿景到现实的史诗级突破。

早在两年前,OpenAI团队定下了一个大胆的目标,打造一款比GPT-4聪明10倍的模型。

这不仅意味着LLM性能提升,更是对计算、数据、协作的极限挑战。

从左到右:奥特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam

如今,OpenAI在2月底正式交卷,GPT-4.5情商堪称所有模型最强的,并再次Scaling无监督学习的边界。

这款「超级模型」究竟如何创造智能奇迹,全部浓缩在了这45分钟的圆桌对谈中。

一些精彩亮点:

  • GPT-4.5比GPT-4聪明10倍,研发用时2年,拥有上一代不具备的微妙「魔力」

  • 训练GPT-4.5为OpenAI提供了宝贵的技术经验;现只需要大约5名员工,就可以从头开始训练GPT-4

  • 算力基础设施和大规模GPU扩展带来的小概率问题会捅出大乱子

  • 数据效率成为关键瓶颈,OpenAI下一个主要研究前沿是提高数据效率

  • 「torch.sum bug」等趣事推动模型性能飞跃。

  • Scaling Law被验证为可能长期有效的「宇宙规律」

GPT-4.5聪明10倍

奥特曼开篇说,通常他们开这种会都是为了发布新产品,不过这次打算换个玩法,聊聊GPT-4.5开发背后的故事。

GPT-4.5推出后,用户对它的兴趣特别大,这大大超出了研发团队的预期。

他们首先从「一个巨型模型到底需要什么?」这个话题说起。

「一大堆人、一大把时间,还有海量的计算资源。」主要负责预训练数据的Alex回答说。

Alex表示,他们光是准备阶段就花了很多心思,至于正式的训练,「本身就是个超级大的工程」。

在实际训练中,研究团队经常得做选择:是推迟发布,等更多问题解决;还是早点上线,边跑边解决问题。

这是个平衡,不能让整个训练过程拖得太久。

他们谦虚地认为,对于效率更高的算法及以如何更好地利用现有数据,他们还只是「略知皮毛」。

在不久之前,我们还在受限于算力。但从GPT-4.5开始,我们更多地是处在一个受限于数据的环境里了。

他们说这是一个颠覆性的进展,「整个世界对此还没有充分认识到。」

两年前着手开发GPT-4.5时,他们的目标是比GPT-4聪明10倍。

现在,他们觉得自己达到了这个目标——至少在投入的有效算力下,GPT-4.5实现了比GPT-4聪明10倍的效果。

预训练的两个难题

不过,实际的训练时间还是比预想的要长不少。

这里面主要有两个问题。

一个是从1万个GPU增加到10万个GPU,问题会变得多得多。

尤其是一些提前没预料到的小概率问题,在大规模计算时会捅出大乱子。

最容易出问题的就是算力基础设施,由于他们的数据量实在是太大了,有些问题连硬件制造商都没遇见过。

网络架构、单个加速器,这些都会出问题。「我们的工作就是尽量把这些变量的波动降到最低。」

另一个问题是探索前沿科技这件事本身就很难。

在训练GPT-4.5时,OpenAI投入了几百人的努力,耗费了大量的时间,几乎是all in。

但如果他们现在重新训练一个GPT-4水平的模型,大概只需要5到10个人就可以搞定。

专注于数据效率和算法的Dan说,「我觉得做任何新东西都难。但是当你知道别人已经做成过某件事,难度就会大大降低」。

「因为最难的部分是下定决心去做一件事。知道某件事是可行的,简直就像开了挂,瞬间就容易多了。」

Dan接着表示,如果想要将训练规模再扩大10倍甚至是100倍,数据就会成为瓶颈,这时候就需要一些算法上的创新,让模型能用更多的算力从同样的数据里学到更多东西。

torch.sum bug趣事

研究团队在GPT-4.5的训练中,发现了一些特别有趣的事情。

比如,在训练过程中不断地优化机器学习算法,做出一些调整。

尤其是团队解决了一些关键问题后,他们看到了模型性能的大幅提升。

那一刻,整个团队的能量都不一样了,大家都特别兴奋,动力满满,要把最后阶段冲刺完成。

「那一刻真的很震撼。这对团队士气的提升,真的特别美妙。」

现场OpenAI的首席系统架构师Amin Chian分享了一个「torch.sum bug」趣事。

在训练过程中遇到bug是常事,通常是找一下到底是硬件故障、数据损坏,还是机器学习相关的Bug。

但在训练GPT-4.5时,有一次好几个问题一直都没有解决。

大家没办法就在一起讨论研究这些问题到底是由不同的Bug引起的,还是同一个Bug导致的。

他们围着桌子投票。结果呢?后来确定的那个Bug在当时得票最少!

就是个简单的「torch.sum」Bug,来自上游的PyTorch库,大家都觉得太不可思议了。

所有的问题都被这一行代码给解决了,真的特别有趣。

为了庆祝,他们还把Slack频道从「多Bug理论」改成了「单Bug理论」,那场面可热闹了。

这个Bug的触发频率特别低,可能每100步、1000步才出一次问题,特别容易被忽略。

但他们有条纪律,在训练过程中不能容忍这种问题出现。

整个过程就是一个坚持不放弃的故事。



压缩即智能

几十年来,深度学习的核心一直是提升算力效率。而且,每一次小的改进,都能带来显著的叠加效应。

世界上各地不同的人发现一个提升10%效率的技巧,另一个提出提升20%的优化,这些看似微小的进步累积起来,就能彻底改变模型的表现。

过去,因算力受限,数据效率的研究显得并不划算。但如今,数据效率每一次突破都将可能成为AI发展的临界点。

因此,现在就去预测AI会有瓶颈,有点不明智。

他们还认为更好的预训练和无监督学习能全面提升模型的智能,帮助模型更好地泛化,这一点跟现在模型的推理能力很是互补。

预训练本质上是在压缩数据。压缩数据意味着发现不同事物之间的联系、类比和抽象。而推理则针对某个具体问题,需要一种谨慎思考的技巧。

这种谨慎思考能解锁很多不同领域的问题,但预训练在跨领域压缩数据时,学到的是一种更抽象的东西。

为什么无监督学习会有效?研究员们的答案是「压缩」。

可以说,理想的智能形态就是所谓的「所罗门诺夫归纳」(Solomonov induction)。

简单来说,模型更倾向于简洁的解释。与此同时,它严格遵循贝叶斯原理,把所有可能性都记住,随时根据新信息更新自己的回答。

而他们现在做的预训练——或者说理解预训练的一个视角——就是在做这种「压缩」。

试图找到一个最短的程序(或者模型),来解释所有的数据,以此作为对理想智能的一种近似。

Scaling Law是宇宙法则

在播客的最后,奥特曼表示,训练GPT-4.5的整个过程,花了无数的人力、时间和金钱,其实可以看成是一场实验。

一场验证Scaling Law是不是还成立的实验。

结果他们发现,Scaling Law不仅有效,而且还可能会持续很长时间。

奥特曼说他接受Scaling Law就像接受量子力学一样,还不明白为什么Scaling Law会是一种宇宙的规律。

对此Dan试着解释说,模型数据压缩得越多,智能就越高,这个有很强的哲学依据。

他自己比较喜欢的一个解释是,世界上数据的「关键概念」是稀疏的,符合幂律分布(power law)。

比如,第100个重要的概念,可能在每100个文档里只出现一次。

也就是说数据有很强的「长尾效应」。

所以现实是,如果你想抓到「尾巴」里下一个重要的东西,可能得把算力和数据量翻个十倍。

而这个尾巴还很长,可以一直挖下去。

参考资料:

https://x.com/sama/status/1910363434241450171

https://www.youtube.com/watch?v=6nJZopACRuQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好变态!1090投1000中!92%的命中率炸裂了!!

好变态!1090投1000中!92%的命中率炸裂了!!

柚子说球
2026-03-29 17:52:30
2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

就一点
2026-03-28 17:42:50
不装了!徐帆回应离婚7个月后,冯小刚贴脸养女,担心的事发生了

不装了!徐帆回应离婚7个月后,冯小刚贴脸养女,担心的事发生了

共工之锚
2026-03-29 18:18:53
北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

扬子晚报
2026-03-29 19:35:46
伊朗高级将领:美军被迫撤离伊朗边境邻近地区

伊朗高级将领:美军被迫撤离伊朗边境邻近地区

财联社
2026-03-30 00:50:06
中国警告美国:勿将冲突战乱引入亚太

中国警告美国:勿将冲突战乱引入亚太

参考消息
2026-03-29 16:18:54
超北京升第3!广东48分狂胜送四川开局32连败 徐杰20+4三分

超北京升第3!广东48分狂胜送四川开局32连败 徐杰20+4三分

醉卧浮生
2026-03-29 21:14:44
《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

中国经营报
2026-03-29 16:39:28
“凭什么判我死刑!”泰安入室抢婴案庭审现场,主犯当庭破口大骂!

“凭什么判我死刑!”泰安入室抢婴案庭审现场,主犯当庭破口大骂!

极目新闻
2026-03-29 15:16:06
李荣浩再次喊话吴向飞:查清楚了吗?不能没有下文就撤了,“我和律师都在等您”;此前吴向飞质疑李荣浩侵权

李荣浩再次喊话吴向飞:查清楚了吗?不能没有下文就撤了,“我和律师都在等您”;此前吴向飞质疑李荣浩侵权

大象新闻
2026-03-29 20:45:03
中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

叹知
2026-03-29 18:13:46
88年核武专家张宪义携全家叛逃美国,为何30年后却被世人赞为英雄

88年核武专家张宪义携全家叛逃美国,为何30年后却被世人赞为英雄

兴史兴谈
2026-03-28 23:47:25
离谱!阿森纳11人集体退出本期国家队 球迷质疑诈伤:为3冠王蓄力

离谱!阿森纳11人集体退出本期国家队 球迷质疑诈伤:为3冠王蓄力

我爱英超
2026-03-29 23:07:36
中美会谈结束,沉默11天后,特朗普宣布,中国将再买2000万吨大豆

中美会谈结束,沉默11天后,特朗普宣布,中国将再买2000万吨大豆

史行途
2026-03-29 20:05:59
张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

魔都姐姐杂谈
2026-03-28 18:18:48
伊朗自己都没想到,摸了这么大个奖!美军出现大战损,E3G被毁?

伊朗自己都没想到,摸了这么大个奖!美军出现大战损,E3G被毁?

共工之锚
2026-03-29 14:26:08
世贸天阶拆了?实为焕新升级,篮球中心谢幕,4K天幕将登场

世贸天阶拆了?实为焕新升级,篮球中心谢幕,4K天幕将登场

新京报
2026-03-29 17:11:22
全美50州爆发抗议示威,高喊特朗普下台,万斯宣布撤军伊朗

全美50州爆发抗议示威,高喊特朗普下台,万斯宣布撤军伊朗

莉莉和奶奶
2026-03-29 19:19:10
4月首款新机官宣:4月1日,正式发布

4月首款新机官宣:4月1日,正式发布

科技堡垒
2026-03-29 11:19:43
魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

史海流年号
2026-03-29 12:14:27
2026-03-30 02:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14845文章数 66720关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

亲子
健康
数码
艺术
军事航空

亲子要闻

夏天来了,如何给小宝宝洗澡?具体步骤如下

干细胞抗衰4大误区,90%的人都中招

数码要闻

内存条价格被曝出现断崖式下跌,一天跌去百元

艺术要闻

不守墨矩的扬州八怪

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版