网易首页 > 网易号 > 正文 申请入驻

GPT-5训练背后隐藏大佬:靠一篇博客入职OpenAI

0
分享至

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。

“许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。

▲Yuchen Jin的X推文及Yuchen Jin的自述

Yuchen Jin提及的这篇博客发布于2024年12月,题为《Muon:神经网络隐藏层的优化器(Muon: An optimizer for hidden layers in neural networks)》。

博客地址:https://kellerjordan.github.io/posts/muon/

从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型企业。

这篇博客厉害在那儿?Muon凭什么成为OpenAI的敲门砖?让我们从这篇博客文章内容说起。

一、Muon定义:一个神经网络隐藏层的优化器

Muon是神经网络隐藏层的优化器。它被用于NanoGPT和CIFAR-10的快速运行,刷新了当时训练速度的记录。

Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。

具体来说,Muon是一个针对神经网络隐藏层二维参数的优化器,其定义如下:

其中“NewtonSchulz5”定义为以下Newton-Schulz矩阵迭代:

使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。

Muon取得了以下实证成果:

1、将CIFAR-10上的训练速度记录提高到94%准确率,从3.3秒提高到2.6秒。

2、将FineWeb(一项称为NanoGPT快速运行的竞赛任务)上的训练速度记录提高至3.28 val loss,提高了1.35倍。

3、在扩展到774M和1.5B参数的同时,继续显示训练速度的提升。

4、在HellaSwag上用10个8xH100小时训练了一个1.5B参数转换器,使其达到GPT-2 XL级别的性能。使用AdamW达到相同结果则需要13.3小时。

以下是针对NanoGPT快速运行的不同强力优化器的比较:

▲按样本效率比较优化器(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102924_Optimizers)

▲按挂钟时间比较优化器

此外,以下是Muon和AdamW在训练15亿参数语言模型时的对比。两个优化器均已进行调整。

▲Muon与AdamW在15亿参数短时间训练中的对比(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102024_ScaleUp1B)

二、Muon设计:牛顿-舒尔茨迭代法作为后处理步骤

Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。

NS迭代的作用是使更新矩阵近似正交化,即应用下列操作:

换句话说,NS迭代实际上用最接近的半正交矩阵替换了SGD-momentum的更新矩阵。

为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。

作者推测,正交化有效地增加了其他“稀有方向”的规模,这些方向在更新中幅度较小,但对学习仍然很重要。

除了NS迭代之外,还有其他几种方法可以对矩阵进行正交化。但作者没有使用其中两种方法,他是如何排除的?

一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。

相比之下,作者发现NS可以在bfloat16中稳定运行,因此选择它们作为正交化更新的首选方法。

在Keller Jordan的实验中,当使用具有调整系数的Muon来训练Transformer语言模型和小型卷积网络时,只需运行5步NS迭代就足够了。

此外,Keller Jordan还分析了Muon的运行时间和内存要求。对于典型的语言训练场景,无论规模大小,Muon的FLOP开销都低于1%。

三、Muon实证考虑:批判糟糕的基线,提出新方法

根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。

根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。

另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。

第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。

Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。

Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。

发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。

为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。

竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。

结语:全新优化器或成为GPT-5中的重要技术

通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。

Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

来源:X平台、keller Jordan博客

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从高管到送外卖,一个985硕士的10次滑落

从高管到送外卖,一个985硕士的10次滑落

最人物
2026-01-14 15:35:35
寒潮将带来暴雪和低温冰冻,江苏、安徽部分中小学今明停课

寒潮将带来暴雪和低温冰冻,江苏、安徽部分中小学今明停课

澎湃新闻
2026-01-19 07:42:26
【西甲】拉什福德破门 巴萨1比2客负皇家社会

【西甲】拉什福德破门 巴萨1比2客负皇家社会

体坛周报
2026-01-19 08:15:17
U23亚洲杯半决赛国足将战越南,对手门将像李昊,注意角球和反击

U23亚洲杯半决赛国足将战越南,对手门将像李昊,注意角球和反击

硬腿子聊个球
2026-01-18 23:37:35
状元才第4年就要被时代抛弃?本以为是下个塔图姆,结果却成乔治

状元才第4年就要被时代抛弃?本以为是下个塔图姆,结果却成乔治

你的篮球频道
2026-01-19 07:37:43
聂卫平辞世!3妻3子女现状揭晓,长子入籍日本,长孙姓氏或成缺憾

聂卫平辞世!3妻3子女现状揭晓,长子入籍日本,长孙姓氏或成缺憾

科学发掘
2026-01-18 12:47:12
超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

丰谭笔录
2025-12-11 11:41:19
章泽天的新播客,干翻了“高知人设”

章泽天的新播客,干翻了“高知人设”

蓝鲸新闻
2026-01-17 01:03:01
10-6!威尔逊大师赛夺冠,三大赛只缺英锦赛,现役7人大满贯听牌

10-6!威尔逊大师赛夺冠,三大赛只缺英锦赛,现役7人大满贯听牌

小火箭爱体育
2026-01-19 07:03:36
胡启能被注射死刑,过程曝光,临刑前戴手铐流泪向妻子告别

胡启能被注射死刑,过程曝光,临刑前戴手铐流泪向妻子告别

磊子讲史
2024-03-28 10:46:06
安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

安徽画家关玉梅被判处死刑,死前拒吃断头饭,临行前一句话众人泪目

红豆讲堂
2024-11-15 11:25:33
西贝不是预制菜,贾国龙不会向客户低头,知情人透露贾国龙的倔强

西贝不是预制菜,贾国龙不会向客户低头,知情人透露贾国龙的倔强

江山挥笔
2026-01-18 20:19:12
大V让贾国龙“干老罗”?建议相关部门介入调查,不能让事态扩大

大V让贾国龙“干老罗”?建议相关部门介入调查,不能让事态扩大

谭浩俊
2026-01-18 04:31:53
建国后列强找我国偿还13亿两白银欠单,毛主席:谁欠的找谁要!

建国后列强找我国偿还13亿两白银欠单,毛主席:谁欠的找谁要!

寄史言志
2026-01-18 18:18:19
美的董事长方洪波:白色家电和暖通空调要做到全球“数一数二”

美的董事长方洪波:白色家电和暖通空调要做到全球“数一数二”

IT之家
2026-01-18 15:53:05
90后男子做祭品纸扎走红,定制switch、电竞电脑等,制作单部定制纸手机耗时30小时左右

90后男子做祭品纸扎走红,定制switch、电竞电脑等,制作单部定制纸手机耗时30小时左右

极目新闻
2026-01-17 14:06:55
他是迟到3年被授衔的开国上将,得毛主席信赖,周总理亲自点将

他是迟到3年被授衔的开国上将,得毛主席信赖,周总理亲自点将

历史龙元阁
2026-01-18 09:30:09
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
聂卫平之子孔令文:半生婚姻两度离合,父子情感之路皆充满波折

聂卫平之子孔令文:半生婚姻两度离合,父子情感之路皆充满波折

复转这些年
2026-01-16 23:46:28
兰莉娅现身聂卫平追悼会!姐夫率女婿送花圈,两儿子媳妇身份曝光

兰莉娅现身聂卫平追悼会!姐夫率女婿送花圈,两儿子媳妇身份曝光

深度解析热点
2026-01-18 14:07:26
2026-01-19 09:51:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11086文章数 116943关注度
往期回顾 全部

科技要闻

编程从此不再有门槛!Claude Code火爆出圈

头条要闻

牛弹琴:英国人心在滴血 就派了1个兵被加征10%关税

头条要闻

牛弹琴:英国人心在滴血 就派了1个兵被加征10%关税

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

厂家铤而走险 含毒农药逃避市场监管?

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

家居
房产
健康
亲子
公开课

家居要闻

岁月柔情 现代品质轻奢

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

血常规3项异常,是身体警报!

亲子要闻

家长们焦虑孩子情绪?来丛台智汇谷润泽心灵驿站

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版