网易首页 > 网易号 > 正文 申请入驻

仅凭一篇博客,他成功入职OpenAI!核心技术或用于GPT-5训练

0
分享至

新智元报道

编辑:定慧 桃子

【新智元导读】未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。

如果想成功应聘加入OpenAI需要什么条件?

科班出身?顶会论文?师从像Hinton、LeCun这样的AI大师?还是社交媒体上的技术红人?

或者,也许只需要写一篇博客就行。

Keller Jordan是一名机器学习领域的研究学者,2024年底他设计了一种神经网络隐藏层的优化器Muon,并公开记录了自己的研究进展。

很快,社区成员也开始并行实验,报告结果,事情变得越来越有趣——OpenAI和xAI同时注意到了他,最终他选择加入了OpenAI!

Muon第二作者Yuchen Jin直言,发表论文≠影响力。或许Muon已经被用于GPT-5的训练中。

别再盲目追顶会

Keller Jordan的故事和DeepSeek开源引发的轰动有些相似,虽然两者的影响力远不可比拟,但事情背后的底层逻辑似乎都指向同一个——

在快速迭代的AI世界里,传统的论文模式似乎已经落伍,开放&社区共建&快速响应也许才能让人类跟上AI进化的速度。

微软研究院的研究工程师Shital Shah在知晓Keller Jordan的经历后感到非常兴奋,因为他一直认为研究就该「以这种方式进行」

即使在「开放」的研究实验室中,你也会看到太多研究人员对「早期想法」敝帚自珍、斤斤计较。

研究分享通常只在亲密的朋友之间进行,很长一段时间,人们对此过于执着……

任何一个想法都需要花费数月时间才能通过发表的论文面世。

而当它最终发表时,又常常淹没于大量其他论文之中。

如果有人确实注意到了它,对其做出改进又需要经历同样漫长而艰难的另一个周期。

Keller则采取了不同的方法。

他将初步想法作为公开的GitHub仓库发布,而不是以论文形式发表。

人们可以立即尝试并改进这些内容。

所有人都可以在任何时间验证所有内容。由于一切都是开放的,因此不存在作弊或夸大主张的空间。

这确实可以称得上是「分布式实时人工智能研究」!短短几天内,Keller和其他人就改进了想法。看到潜力的人们纷纷加入并协助进行并行化。

在传统的人工智能研究领域,这个反馈周期本需要6个多月的时间,而不是仅仅6天。

关于在发论文和「速通技术」之间,Keller Jordan的看法依然和半年前一样,今日他转发了一则2月份的自己的推文,表示虽然Muon火了,也帮他进入了OpenAI,但是他不会给Muon写一篇论文。

Keller Jordan的意思很明显,相比于arXiv上的一篇大概率被「淹没」的论文,还不如老老实实的继续研究自己的「优化器」。

甚至在今天还「特地」表达了自己关于目前AI优化其论文的看法——「都是虚假的,都是水文」

影响力>声望

说来,仅凭一个博客被OpenAI招入麾下,Keller Jordan本人有着怎样的背景?

他于2020年获得了加州大学圣地亚哥分校数学和计算机科学双学士学位,也曾就读于加州大学圣克鲁斯分校和UC伯克利。

毕业后,他曾入职专注于生成式AI公司Hive任机器学习工程师。随后,又在维也纳复杂性科学中心担任访问研究员。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub项目中,最具影响力的便是——Modded-NanoGPT,星标超2.4k。

Keller和团队仅用8块H100在3分钟内复现GPT模型,仅需处理0.73B token。

他本人还有一个个人博客,自入职OpenAI以来,一直没有更新,最后一篇文章正是Muon优化器。

Muon这篇文章究竟讲的是什么?

一个优化器,破训练速度新纪录

在深度学习领域,优化器是推动模型训练效率和性能的核心工具。

直到2024年12月,一个名为Muon优化器横空出世,凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。

Muon,是一种为神经网络2D参数隐藏层设计的优化器。

其核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。

它的实现简单高效,支持在bf16精度下稳定运行,显著降低了计算开销。

比起AdamW优化器,Muon在多个任务中,表现非常惊艳。

在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。

针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。

此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。

那么,在AI圈,Muon的影响力有多大?

微软团队1月份论文中,便使用了Muon优化器。

一些机器学习大佬专为此著分析,还有更多研究中拥抱Muon优化器。

Muon的潜力

人工智能发展速度飞快,模型训练始终是其核心环节,而优化器则扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。

过去几年里,AdamW一直是训练大语言模型的主力。

AdamW能让GPT、LLaMA、Qwen这类庞然大物学得又稳又快。

然而,随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW的局限性开始显现——它在超大规模场景下的效率开始受到挑战。

进一步提升AI能力,需要更大的模型和更多的训练资源。

但计算资源的成本高昂,训练时间过长也会拖慢研究和应用的进度。

因此,开发更高效的优化器,不仅是技术上的追求,更是经济和实践上的迫切需求。

然后Muon「悄然出现」,尽管它还未成为业界焦点,但其独特的设计和卓越的性能表明,它可能是AI模型训练领域的一次重大基础创新。

而这个事关重大的创新,并不是来自于著名论文或者知名团队,而仅仅是Keller Jordan的一次「练手」。

AI研究员就业市场的「混乱现状」

许多AI研究员博士似乎都陷入了一个误区,认为在顶级会议上发表论文就是最终目标。

曾经有一段时间,发表论文就等于产生影响!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以论文的形式出现的。

真正的错误在于未能察觉这一情况早已不再适用。

发表文章≠影响力。

Muon只是一篇博客文章。它让Keller成功进入了OpenAI,他现在可能正用它来训练GPT-5。

Keller并不是孤例!

即便是没有获得博士学位,也可以入职OpenAI。昨天,James Campbell官宣放弃博士学位,要为ChatGPT和AGI引入记忆与人格。

传统的同行评审周期根本无法跟上现代人工智能研究和开发的步伐。

当然基于人工智能的同行评审可能还是很有必要的。

开源就像新的同行评审。现实世界的采用和可复现性更为重要。

但不幸的是,在学术界,激励机制有些错位。学者需要展示「证据」来推动自己的职业生涯(升职、资金支持、同行认可)。

而最有价值的证明形式就是在顶级会议上发表论文。

顶级AI企业的人才选拔是否已从单纯看学术论文,转向综合考察论文、工程和社区等多维度表现还不能就此下定论。

但正如OpenAI官方所言,他们「并不唯学历论,更看重实际潜力与技能」。

无论通过哪条路径,关键在于拿出过硬的成果(无论是论文、代码还是项目)并产生实质影响力

参考资料:

https://kellerjordan.github.io/posts/muon/

https://www.51cto.com/aigc/4707.html

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/kellerjordan0/status/1890178773586489716

https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁男篮8分险胜!完成大逆转,布罗金顿首秀3分,莫兰德爆发

辽宁男篮8分险胜!完成大逆转,布罗金顿首秀3分,莫兰德爆发

体坛瞎白话
2026-03-11 21:34:11
打了十来天,“最高强度”打击来了

打了十来天,“最高强度”打击来了

中国新闻周刊
2026-03-11 15:02:08
伊朗新领袖被曝受重伤正在抢救

伊朗新领袖被曝受重伤正在抢救

凤眼论
2026-03-11 09:37:56
布里斯班狮吼女子官方:5名伊朗女足成员加入,将开启新生活

布里斯班狮吼女子官方:5名伊朗女足成员加入,将开启新生活

懂球帝
2026-03-11 17:30:06
奇才主帅痛斥阿德巴约刷分破纪录!83分被全美狂喷,成最丑陋时刻

奇才主帅痛斥阿德巴约刷分破纪录!83分被全美狂喷,成最丑陋时刻

嘴炮体坛
2026-03-11 11:10:08
美国、德国、英国、法国、意大利、加拿大、日本,发表联合声明

美国、德国、英国、法国、意大利、加拿大、日本,发表联合声明

大风新闻
2026-03-11 21:24:01
陈毅去世后,追悼词周总理写“功大于过”,毛主席批示:去掉这个

陈毅去世后,追悼词周总理写“功大于过”,毛主席批示:去掉这个

雍亲王府
2026-03-03 13:35:07
“内塔尼亚胡丧生”的消息,揭开了“正能量谣言”的内幕

“内塔尼亚胡丧生”的消息,揭开了“正能量谣言”的内幕

清书先生
2026-03-11 16:31:14
字母哥谈阿德巴约83分:以后没人会记得罚球多少,重要的是他拿到了

字母哥谈阿德巴约83分:以后没人会记得罚球多少,重要的是他拿到了

懂球帝
2026-03-11 13:37:05
冲突第12天,穆杰塔巴上任后,10名内鬼被揪出,伊朗主要隐患已除

冲突第12天,穆杰塔巴上任后,10名内鬼被揪出,伊朗主要隐患已除

策略述
2026-03-11 15:06:42
伊朗足协主席:留澳的女足球员不会受罚,她们是被拦住后接走的

伊朗足协主席:留澳的女足球员不会受罚,她们是被拦住后接走的

懂球帝
2026-03-11 19:49:04
太惨了!2月轿车销量榜,新能源仅2款车破万,前十五竟无比亚迪?

太惨了!2月轿车销量榜,新能源仅2款车破万,前十五竟无比亚迪?

购车前线
2026-03-10 23:18:04
4月1号起,银行存款10万以上50万以下的,这个消息一定要知道

4月1号起,银行存款10万以上50万以下的,这个消息一定要知道

另子维爱读史
2026-03-10 23:10:33
太炸裂!曝许雅钧用大S出殡照搭讪女粉丝!劣行曝光房贷都是小S还

太炸裂!曝许雅钧用大S出殡照搭讪女粉丝!劣行曝光房贷都是小S还

乌娱子酱
2026-03-11 14:08:16
穆杰塔巴平安,“内鬼们”心都碎了!

穆杰塔巴平安,“内鬼们”心都碎了!

新动察
2026-03-11 16:21:30
出大事了,以军调转枪口空袭俄设施,普京立即表态,中东要变天了

出大事了,以军调转枪口空袭俄设施,普京立即表态,中东要变天了

林子说事
2026-03-11 14:46:46
传北京盈科律所现40亿资金窟窿,主任曾融资100亿搞氢能汽车

传北京盈科律所现40亿资金窟窿,主任曾融资100亿搞氢能汽车

深蓝财经
2026-03-11 14:47:48
谁与争锋?乌军精锐425团狂突10公里,匈牙利通过反乌克兰决议

谁与争锋?乌军精锐425团狂突10公里,匈牙利通过反乌克兰决议

史政先锋
2026-03-11 19:14:30
登机前决定不回国 伊朗女足又有2人获签证 留澳7人摘头巾激动拥抱

登机前决定不回国 伊朗女足又有2人获签证 留澳7人摘头巾激动拥抱

我爱英超
2026-03-11 09:11:36
微粒贷逾期后单位、亲朋全被催了个遍 深圳金管局确认微众银行违规 催收机构广东华融数据被诉侵权

微粒贷逾期后单位、亲朋全被催了个遍 深圳金管局确认微众银行违规 催收机构广东华融数据被诉侵权

信网
2026-03-10 11:40:40
2026-03-11 22:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14696文章数 66682关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

手机
本地
数码
艺术
公开课

手机要闻

荣耀Magic V6已正式发布:对比荣耀Magic V5,到底有多少区别?

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

数码要闻

存储产能争夺战再升温 AMD欲联手三星电子锁定HBM供给

艺术要闻

这组剪纸太美了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版