网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

仅凭一篇博客，他成功入职OpenAI！核心技术或用于GPT-5训练

2025-06-16 12:52:14　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧桃子

【新智元导读】未中顶会，没有发表arXiv，一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至，它可能被用于训练下一代超级模型GPT-5。

如果想成功应聘加入OpenAI需要什么条件？

科班出身？顶会论文？师从像Hinton、LeCun这样的AI大师？还是社交媒体上的技术红人？

或者，也许只需要写一篇博客就行。

Keller Jordan是一名机器学习领域的研究学者，2024年底他设计了一种神经网络隐藏层的优化器Muon，并公开记录了自己的研究进展。

很快，社区成员也开始并行实验，报告结果，事情变得越来越有趣——OpenAI和xAI同时注意到了他，最终他选择加入了OpenAI！

Muon第二作者Yuchen Jin直言，发表论文≠影响力。或许Muon已经被用于GPT-5的训练中。

别再盲目追顶会

Keller Jordan的故事和DeepSeek开源引发的轰动有些相似，虽然两者的影响力远不可比拟，但事情背后的底层逻辑似乎都指向同一个——

在快速迭代的AI世界里，传统的论文模式似乎已经落伍，开放&社区共建&快速响应也许才能让人类跟上AI进化的速度。

微软研究院的研究工程师Shital Shah在知晓Keller Jordan的经历后感到非常兴奋，因为他一直认为研究就该「以这种方式进行」。

即使在「开放」的研究实验室中，你也会看到太多研究人员对「早期想法」敝帚自珍、斤斤计较。

研究分享通常只在亲密的朋友之间进行，很长一段时间，人们对此过于执着……

任何一个想法都需要花费数月时间才能通过发表的论文面世。

而当它最终发表时，又常常淹没于大量其他论文之中。

如果有人确实注意到了它，对其做出改进又需要经历同样漫长而艰难的另一个周期。

Keller则采取了不同的方法。

他将初步想法作为公开的GitHub仓库发布，而不是以论文形式发表。

人们可以立即尝试并改进这些内容。

所有人都可以在任何时间验证所有内容。由于一切都是开放的，因此不存在作弊或夸大主张的空间。

这确实可以称得上是「分布式实时人工智能研究」！短短几天内，Keller和其他人就改进了想法。看到潜力的人们纷纷加入并协助进行并行化。

在传统的人工智能研究领域，这个反馈周期本需要6个多月的时间，而不是仅仅6天。

关于在发论文和「速通技术」之间，Keller Jordan的看法依然和半年前一样，今日他转发了一则2月份的自己的推文，表示虽然Muon火了，也帮他进入了OpenAI，但是他不会给Muon写一篇论文。

Keller Jordan的意思很明显，相比于arXiv上的一篇大概率被「淹没」的论文，还不如老老实实的继续研究自己的「优化器」。

甚至在今天还「特地」表达了自己关于目前AI优化其论文的看法——「都是虚假的，都是水文」。

影响力＞声望

说来，仅凭一个博客被OpenAI招入麾下，Keller Jordan本人有着怎样的背景？

他于2020年获得了加州大学圣地亚哥分校数学和计算机科学双学士学位，也曾就读于加州大学圣克鲁斯分校和UC伯克利。

毕业后，他曾入职专注于生成式AI公司Hive任机器学习工程师。随后，又在维也纳复杂性科学中心担任访问研究员。

直到2024年12月，Keller正式加入OpenAI。

他所有GitHub项目中，最具影响力的便是——Modded-NanoGPT，星标超2.4k。

Keller和团队仅用8块H100在3分钟内复现GPT模型，仅需处理0.73B token。

他本人还有一个个人博客，自入职OpenAI以来，一直没有更新，最后一篇文章正是Muon优化器。

Muon这篇文章究竟讲的是什么？

一个优化器，破训练速度新纪录

在深度学习领域，优化器是推动模型训练效率和性能的核心工具。

直到2024年12月，一个名为Muon优化器横空出世，凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。

Muon，是一种为神经网络2D参数隐藏层设计的优化器。

其核心思想是，SGD-动量法（SGD-momentum）生成的更新矩阵，通过Newton-Schulz迭代进行正交化处理，生成接近于半正交矩阵的更新，从而提升训练效率。

它的实现简单高效，支持在bf16精度下稳定运行，显著降低了计算开销。

比起AdamW优化器，Muon在多个任务中，表现非常惊艳。

在CIFAR-10中，它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒，提升约21%。

针对NanoGPT训练，Muon在FineWeb数据集上，将验证损失达到3.28训练速度提升了1.35倍。

此外，在774M和1.5B参数规模的模型上，Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平，Muon仅需10个8xH100小时，而AdamW需要13.3小时，效率提升约25%。

那么，在AI圈，Muon的影响力有多大？

微软团队1月份论文中，便使用了Muon优化器。

一些机器学习大佬专为此著分析，还有更多研究中拥抱Muon优化器。

Muon的潜力

人工智能发展速度飞快，模型训练始终是其核心环节，而优化器则扮演着至关重要的角色，它负责调整模型的参数，让模型在数据上表现得更好。

过去几年里，AdamW一直是训练大语言模型的主力。

AdamW能让GPT、LLaMA、Qwen这类庞然大物学得又稳又快。

然而，随着模型参数从几亿增加到几千亿，训练时间从几天变成几周甚至几个月，AdamW的局限性开始显现——它在超大规模场景下的效率开始受到挑战。

进一步提升AI能力，需要更大的模型和更多的训练资源。

但计算资源的成本高昂，训练时间过长也会拖慢研究和应用的进度。

因此，开发更高效的优化器，不仅是技术上的追求，更是经济和实践上的迫切需求。

然后Muon「悄然出现」，尽管它还未成为业界焦点，但其独特的设计和卓越的性能表明，它可能是AI模型训练领域的一次重大基础创新。

而这个事关重大的创新，并不是来自于著名论文或者知名团队，而仅仅是Keller Jordan的一次「练手」。

AI研究员就业市场的「混乱现状」

许多AI研究员博士似乎都陷入了一个误区，认为在顶级会议上发表论文就是最终目标。

曾经有一段时间，发表论文就等于产生影响！

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE，都是以论文的形式出现的。

真正的错误在于未能察觉这一情况早已不再适用。

发表文章≠影响力。

Muon只是一篇博客文章。它让Keller成功进入了OpenAI，他现在可能正用它来训练GPT-5。

Keller并不是孤例！

即便是没有获得博士学位，也可以入职OpenAI。昨天，James Campbell官宣放弃博士学位，要为ChatGPT和AGI引入记忆与人格。

传统的同行评审周期根本无法跟上现代人工智能研究和开发的步伐。

当然基于人工智能的同行评审可能还是很有必要的。

开源就像新的同行评审。现实世界的采用和可复现性更为重要。

但不幸的是，在学术界，激励机制有些错位。学者需要展示「证据」来推动自己的职业生涯（升职、资金支持、同行认可）。

而最有价值的证明形式就是在顶级会议上发表论文。

顶级AI企业的人才选拔是否已从单纯看学术论文，转向综合考察论文、工程和社区等多维度表现还不能就此下定论。

但正如OpenAI官方所言，他们「并不唯学历论，更看重实际潜力与技能」。

无论通过哪条路径，关键在于拿出过硬的成果（无论是论文、代码还是项目）并产生实质影响力。

参考资料：

https://kellerjordan.github.io/posts/muon/

https://www.51cto.com/aigc/4707.html

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/kellerjordan0/status/1890178773586489716

https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1827 跟贴 1827
同花顺回应突然崩了：已修复，具体原因排查中

第一财经 2026-07-03 11:32:13
362 跟贴 362

泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

北京日报客户端 2026-07-02 08:55:17
20357 跟贴 20357

国乒男单无缘美国大满贯8强

北京日报 2026-07-03 11:55:13
6505 跟贴 6505
官方报价40元的配件被维修师傅收150元格力售后回应

上游新闻 2026-07-03 12:34:32
807 跟贴 807

西班牙时隔16年再赢淘汰赛奥地利全场没有1次射正

澎湃新闻 2026-07-03 07:16:31
466 跟贴 466

大量欧洲客户从中国网购空调空运一台运费2000元

封面新闻 2026-07-03 11:45:25
5746 跟贴 5746
俄罗斯宣布：芬兰已成核打击目标！

看看新闻Knews 2026-07-03 13:09:37
7290 跟贴 7290

双色球第2026075期开奖后，游戏规则如何运行？

齐鲁壹点 2026-07-03 15:12:44
132 跟贴 132
失踪近一年后，美国一实验室员工被曝曾参与量子物理项目：让物质“同时存在于两个地方”

红星新闻 2026-07-03 14:00:10
22 跟贴 22
欧洲主要国家现已接受船舶通过霍尔木兹海峡将不可避免需要付费

财联社 2026-07-02 23:23:04
896 跟贴 896
紫牛头条｜景区 NPC 与游客互动掰手腕致骨折，自己垫付医药费后被游客拉黑

扬子晚报 2026-07-03 07:25:03
1644 跟贴 1644
意大利女排甲级联赛豪门科内利亚诺官宣：34岁前中国女排主力二传姚迪和中国女排前队长朱婷正式加盟球队，两人携手征战意甲与欧冠赛事

大象新闻 2026-07-03 19:54:41
4 跟贴 4
C罗穿21号球衣致敬已故队友若塔

看看新闻Knews 2026-07-03 09:38:09
3147 跟贴 3147
美拒绝续签"美墨加协定" 美媒屡屡提及中国

环球网资讯 2026-07-03 07:05:17
63 跟贴 63
热浪席卷欧洲，高温正催生全新的“气候经济”，能成为中国外贸长期增长点吗？

上观新闻 2026-07-03 09:03:35
254 跟贴 254
特斯拉Model Y L在美国上市

界面新闻 2026-07-03 11:01:08
322 跟贴 322
德英相继放弃建造大型战舰，为了“省钱”的无奈之举？

澎湃新闻 2026-07-02 21:38:27
388 跟贴 388
日经225波动率指数飙升53%，创三个月以来最大涨幅

每日经济新闻 2026-07-03 14:56:06
79 跟贴 79
布朗：心情既兴奋又失落将铭记在绿军经历的一切

北青网-北京青年报 2026-07-03 08:30:02
104 跟贴 104
俄罗斯采取措施稳定国内燃料供应

财联社 2026-07-03 12:02:03
52 跟贴 52
教育部：不得以“夏令营”等名义变相组织考试

央视新闻客户端 2026-07-03 11:29:18
245 跟贴 245
全国首位不靠论文拿博士学位的医学领域研究生通过答辩

澎湃新闻 2026-07-03 20:16:28
0 跟贴 0
藏马熊幼崽走失误闯牧民家，奶凶又怯生，拍摄者：并未私自圈养或伤害

潇湘晨报 2026-07-03 12:04:24
31 跟贴 31
7月5日起中国内地航线燃油附加费将下调

新京报 2026-07-03 17:13:10
62 跟贴 62
网传“南宁邕江主航道开放水上运动”系曲解误读（2026·07·03）

今日辟谣 2026-07-03 18:49:10
1 跟贴 1
今下午S4沪金高速发生两车事故所幸无人伤亡

上观新闻 2026-07-03 20:47:01
0 跟贴 0
TCL实业控股在都江堰成立新公司，注册资本10万

中国能源网 2026-07-03 19:13:38
1 跟贴 1
事发坡子街！泰州市民小心这名男子！

百晓生很小声 2026-07-03 20:50:09
0 跟贴 0
朝夕相处的亲哥，竟将3岁妹妹扔下河？免刑责引众怒！

子芫伴你成长 2026-07-03 20:53:04
0 跟贴 0
监控实拍！南通这名男子被曝光！

濠河神聊 2026-07-03 20:55:45
0 跟贴 0

欧洲主要国家现已接受船舶通过霍尔木兹海峡将不可避免需要付费

欧洲主要国家现已接受船舶通过霍尔木兹海峡将不可避免需要付费

财联社

2026-07-02 23:23:04

大陆发出统一最强音后，赖清德回应，黄智贤不装了，对大陆摊牌了

大陆发出统一最强音后，赖清德回应，黄智贤不装了，对大陆摊牌了

共工之锚

2026-07-03 00:14:32

若无意外，2026年下半年中国或迎来4大降价潮，应早做准备

若无意外，2026年下半年中国或迎来4大降价潮，应早做准备

混沌录

2026-07-02 19:52:26

春水堂以技术破局高价壁垒，聚焦成年人独居情感补位

春水堂以技术破局高价壁垒，聚焦成年人独居情感补位

木头玩数码

2026-07-02 12:41:49

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

清衣渡a

2026-06-30 13:42:14

世体：导致克罗地亚进球无效的微芯片工作原理真的万无一失吗

世体：导致克罗地亚进球无效的微芯片工作原理真的万无一失吗

懂球帝

2026-07-03 15:58:08

清理布朗尼！？詹姆斯父子离队预定！

清理布朗尼！？詹姆斯父子离队预定！

柚子说球

2026-07-03 17:43:36

后来才明白，电动车充满电后不拔，不是充电，是在给电池“加班”

后来才明白，电动车充满电后不拔，不是充电，是在给电池“加班”

沙雕小琳琳

2026-07-02 19:46:52

日本人排队抢购中国相机！佳能尼康大本营，为何被中国偷家了？

日本人排队抢购中国相机！佳能尼康大本营，为何被中国偷家了？

生活新鲜市

2026-07-03 18:39:42

我们为什么养出了一堆没有教养的“废物”？

我们为什么养出了一堆没有教养的“废物”？

教育人陈志文

2026-05-25 11:24:47

日企员工走私稀土案调查，日媒称：中国公民涉嫌帮助，外交部回应

日企员工走私稀土案调查，日媒称：中国公民涉嫌帮助，外交部回应

好贤观史记

2026-07-03 20:31:55

英格兰名宿力劝图赫尔：别让曼联球员出战世界杯对阵墨西哥一战

英格兰名宿力劝图赫尔：别让曼联球员出战世界杯对阵墨西哥一战

领创体育君

2026-07-03 12:47:44

送走马蓉又面临冯清，倒霉的王宝强，终究还是逃不过“女人坑”

送走马蓉又面临冯清，倒霉的王宝强，终究还是逃不过“女人坑”

原来仙女不讲理

2026-07-03 20:43:31

同曦男篮球员大甩卖三大主力被交易基本加盟北京男篮和山东男篮

同曦男篮球员大甩卖三大主力被交易基本加盟北京男篮和山东男篮

中国篮坛快讯

2026-07-03 17:45:39

电影《怒之杀》官宣确认引进，档期待定

电影《怒之杀》官宣确认引进，档期待定

阿废冷眼观察所

2026-07-03 18:23:17

小米16TB 新品官宣：7 月 1 日，全新开售

小米16TB 新品官宣：7 月 1 日，全新开售

科技堡垒

2026-07-01 10:41:30

彻底撕破脸！被交易至76人后杰伦布朗公开炮轰史蒂文斯与凯尔特人

彻底撕破脸！被交易至76人后杰伦布朗公开炮轰史蒂文斯与凯尔特人

夜白侃球

2026-07-03 11:38:59

大反转！日本出局，主教练森保一下课？日媒：足协给出了续约决定

大反转！日本出局，主教练森保一下课？日媒：足协给出了续约决定

打小我就醜

2026-07-03 06:08:54

WTT美国大满贯：大爆冷！国乒女单3人被淘汰，王艺迪11:1世界冠军

WTT美国大满贯：大爆冷！国乒女单3人被淘汰，王艺迪11:1世界冠军

砚底沉香

2026-07-03 19:06:58

带12瓶茅台去岳父家拜年，小舅子嫌低档，我拎走后妻子打爆我电话

带12瓶茅台去岳父家拜年，小舅子嫌低档，我拎走后妻子打爆我电话

千秋文化

2026-07-03 19:25:04

AI产业主平台领航智能+时代

15596文章数 66945关注度

往期回顾全部

科技要闻

万亿富豪马斯克舍不得特斯拉员工敞开用AI

头条要闻

60岁老人猥亵8岁女童仅获刑一年三个月法院决定再审

头条要闻

60岁老人猥亵8岁女童仅获刑一年三个月法院决定再审

体育要闻

C罗穿已故队友若塔球衣谢场眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

"千亿"众邦银行被接管:系严重信用风险

汽车要闻

方程豹钛9内饰曝光用上了长联屏设计/下半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

艺术

教育

时尚

本地

旅游要闻

今天，为何这么多人循迹梁林路？

艺术要闻

溥仪卖给日本的王羲之真迹！足有5000多字

教育要闻

用话术让孩子进步只是第一步

A-Lin已经这样了，徐佳莹你怎么睡得着！

本地新闻

国内足球之旅？这座小城给你高分答案

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版