网易首页 > 网易号 > 正文 申请入驻

仅凭一篇博客,他成功入职OpenAI!核心技术或用于GPT-5训练

0
分享至

新智元报道

编辑:定慧 桃子

【新智元导读】未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。

如果想成功应聘加入OpenAI需要什么条件?

科班出身?顶会论文?师从像Hinton、LeCun这样的AI大师?还是社交媒体上的技术红人?

或者,也许只需要写一篇博客就行。

Keller Jordan是一名机器学习领域的研究学者,2024年底他设计了一种神经网络隐藏层的优化器Muon,并公开记录了自己的研究进展。

很快,社区成员也开始并行实验,报告结果,事情变得越来越有趣——OpenAI和xAI同时注意到了他,最终他选择加入了OpenAI!

Muon第二作者Yuchen Jin直言,发表论文≠影响力。或许Muon已经被用于GPT-5的训练中。

别再盲目追顶会

Keller Jordan的故事和DeepSeek开源引发的轰动有些相似,虽然两者的影响力远不可比拟,但事情背后的底层逻辑似乎都指向同一个——

在快速迭代的AI世界里,传统的论文模式似乎已经落伍,开放&社区共建&快速响应也许才能让人类跟上AI进化的速度。

微软研究院的研究工程师Shital Shah在知晓Keller Jordan的经历后感到非常兴奋,因为他一直认为研究就该「以这种方式进行」

即使在「开放」的研究实验室中,你也会看到太多研究人员对「早期想法」敝帚自珍、斤斤计较。

研究分享通常只在亲密的朋友之间进行,很长一段时间,人们对此过于执着……

任何一个想法都需要花费数月时间才能通过发表的论文面世。

而当它最终发表时,又常常淹没于大量其他论文之中。

如果有人确实注意到了它,对其做出改进又需要经历同样漫长而艰难的另一个周期。

Keller则采取了不同的方法。

他将初步想法作为公开的GitHub仓库发布,而不是以论文形式发表。

人们可以立即尝试并改进这些内容。

所有人都可以在任何时间验证所有内容。由于一切都是开放的,因此不存在作弊或夸大主张的空间。

这确实可以称得上是「分布式实时人工智能研究」!短短几天内,Keller和其他人就改进了想法。看到潜力的人们纷纷加入并协助进行并行化。

在传统的人工智能研究领域,这个反馈周期本需要6个多月的时间,而不是仅仅6天。

关于在发论文和「速通技术」之间,Keller Jordan的看法依然和半年前一样,今日他转发了一则2月份的自己的推文,表示虽然Muon火了,也帮他进入了OpenAI,但是他不会给Muon写一篇论文。

Keller Jordan的意思很明显,相比于arXiv上的一篇大概率被「淹没」的论文,还不如老老实实的继续研究自己的「优化器」。

甚至在今天还「特地」表达了自己关于目前AI优化其论文的看法——「都是虚假的,都是水文」

影响力>声望

说来,仅凭一个博客被OpenAI招入麾下,Keller Jordan本人有着怎样的背景?

他于2020年获得了加州大学圣地亚哥分校数学和计算机科学双学士学位,也曾就读于加州大学圣克鲁斯分校和UC伯克利。

毕业后,他曾入职专注于生成式AI公司Hive任机器学习工程师。随后,又在维也纳复杂性科学中心担任访问研究员。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub项目中,最具影响力的便是——Modded-NanoGPT,星标超2.4k。

Keller和团队仅用8块H100在3分钟内复现GPT模型,仅需处理0.73B token。

他本人还有一个个人博客,自入职OpenAI以来,一直没有更新,最后一篇文章正是Muon优化器。

Muon这篇文章究竟讲的是什么?

一个优化器,破训练速度新纪录

在深度学习领域,优化器是推动模型训练效率和性能的核心工具。

直到2024年12月,一个名为Muon优化器横空出世,凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。

Muon,是一种为神经网络2D参数隐藏层设计的优化器。

其核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。

它的实现简单高效,支持在bf16精度下稳定运行,显著降低了计算开销。

比起AdamW优化器,Muon在多个任务中,表现非常惊艳。

在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。

针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。

此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。

那么,在AI圈,Muon的影响力有多大?

微软团队1月份论文中,便使用了Muon优化器。

一些机器学习大佬专为此著分析,还有更多研究中拥抱Muon优化器。

Muon的潜力

人工智能发展速度飞快,模型训练始终是其核心环节,而优化器则扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。

过去几年里,AdamW一直是训练大语言模型的主力。

AdamW能让GPT、LLaMA、Qwen这类庞然大物学得又稳又快。

然而,随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW的局限性开始显现——它在超大规模场景下的效率开始受到挑战。

进一步提升AI能力,需要更大的模型和更多的训练资源。

但计算资源的成本高昂,训练时间过长也会拖慢研究和应用的进度。

因此,开发更高效的优化器,不仅是技术上的追求,更是经济和实践上的迫切需求。

然后Muon「悄然出现」,尽管它还未成为业界焦点,但其独特的设计和卓越的性能表明,它可能是AI模型训练领域的一次重大基础创新。

而这个事关重大的创新,并不是来自于著名论文或者知名团队,而仅仅是Keller Jordan的一次「练手」。

AI研究员就业市场的「混乱现状」

许多AI研究员博士似乎都陷入了一个误区,认为在顶级会议上发表论文就是最终目标。

曾经有一段时间,发表论文就等于产生影响!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以论文的形式出现的。

真正的错误在于未能察觉这一情况早已不再适用。

发表文章≠影响力。

Muon只是一篇博客文章。它让Keller成功进入了OpenAI,他现在可能正用它来训练GPT-5。

Keller并不是孤例!

即便是没有获得博士学位,也可以入职OpenAI。昨天,James Campbell官宣放弃博士学位,要为ChatGPT和AGI引入记忆与人格。

传统的同行评审周期根本无法跟上现代人工智能研究和开发的步伐。

当然基于人工智能的同行评审可能还是很有必要的。

开源就像新的同行评审。现实世界的采用和可复现性更为重要。

但不幸的是,在学术界,激励机制有些错位。学者需要展示「证据」来推动自己的职业生涯(升职、资金支持、同行认可)。

而最有价值的证明形式就是在顶级会议上发表论文。

顶级AI企业的人才选拔是否已从单纯看学术论文,转向综合考察论文、工程和社区等多维度表现还不能就此下定论。

但正如OpenAI官方所言,他们「并不唯学历论,更看重实际潜力与技能」。

无论通过哪条路径,关键在于拿出过硬的成果(无论是论文、代码还是项目)并产生实质影响力

参考资料:

https://kellerjordan.github.io/posts/muon/

https://www.51cto.com/aigc/4707.html

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/kellerjordan0/status/1890178773586489716

https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚晨和曹郁发布联合声明官宣离婚:多年前,我们结束了婚姻关系

姚晨和曹郁发布联合声明官宣离婚:多年前,我们结束了婚姻关系

韩小娱
2026-03-16 15:44:28
伊朗发动“真实承诺-4”第55轮行动

伊朗发动“真实承诺-4”第55轮行动

界面新闻
2026-03-16 18:26:14
今年养老金明确调整方向!高于6148涨50,低于3162的涨150可行吗

今年养老金明确调整方向!高于6148涨50,低于3162的涨150可行吗

另子维爱读史
2026-03-16 17:36:14
姚晨离婚!前夫曹郁已再婚,自曝离婚细节,近照流出骗了所有人

姚晨离婚!前夫曹郁已再婚,自曝离婚细节,近照流出骗了所有人

潮鹿逐梦
2026-03-16 17:26:43
广州桥底下一粤AA奔驰登上热搜!当地居民讲放了20年,竟无人问津

广州桥底下一粤AA奔驰登上热搜!当地居民讲放了20年,竟无人问津

火山詩话
2026-03-16 06:02:46
匈牙利爆发大规模抗议!反对者讽刺欧尔班“套娃”

匈牙利爆发大规模抗议!反对者讽刺欧尔班“套娃”

项鹏飞
2026-03-16 20:45:30
央视记者老K卧底成了公司二把手,收入暴涨,3·15总导演怕他“叛变”1天1电话

央视记者老K卧底成了公司二把手,收入暴涨,3·15总导演怕他“叛变”1天1电话

第一财经资讯
2026-03-16 17:47:17
突发!中国工程院3名院士被官网除名,简历曝光,恐涉及学术腐败

突发!中国工程院3名院士被官网除名,简历曝光,恐涉及学术腐败

火山詩话
2026-03-15 06:22:29
法国情报专家爆料:伊朗导弹百发百中,全靠中国北斗撑腰?

法国情报专家爆料:伊朗导弹百发百中,全靠中国北斗撑腰?

忠诚TALK
2026-03-16 09:17:15
伊朗用40年建设的防空系统,是如何在2个小时之内被美以摧毁的?

伊朗用40年建设的防空系统,是如何在2个小时之内被美以摧毁的?

回旋镖
2026-03-16 19:43:57
闯下塌天大祸,特朗普放话了,大家都来收拾烂摊子,中国也不能跑

闯下塌天大祸,特朗普放话了,大家都来收拾烂摊子,中国也不能跑

健身狂人
2026-03-16 12:55:29
阿富汗塔利班最高领导人发表公开声明

阿富汗塔利班最高领导人发表公开声明

新京报
2026-03-16 17:26:08
哈佛研究了四十年,最后告诉你:最好的药就在菜市场

哈佛研究了四十年,最后告诉你:最好的药就在菜市场

富贵说
2026-03-15 15:21:59
三个邻居或联合进攻塞尔维亚,武契奇亮出中式装备

三个邻居或联合进攻塞尔维亚,武契奇亮出中式装备

健身狂人
2026-03-16 16:08:36
中国女子泰国参加泳池派对后被抛尸后续,嫌疑人被通缉,更多细节曝光……

中国女子泰国参加泳池派对后被抛尸后续,嫌疑人被通缉,更多细节曝光……

新民周刊
2026-03-16 16:50:13
时速80公里!狂飙的租赁小电驴须立即刹车 | 新京报快评

时速80公里!狂飙的租赁小电驴须立即刹车 | 新京报快评

新京报评论
2026-03-16 00:15:32
油价调整:注意,预计上调1420元/吨,油价涨幅继续扩大!

油价调整:注意,预计上调1420元/吨,油价涨幅继续扩大!

金投网
2026-03-16 11:14:46
中国女篮晋级世界杯,12人大名单将整改,3人将被放弃,1人是老将

中国女篮晋级世界杯,12人大名单将整改,3人将被放弃,1人是老将

我就是一个说球的
2026-03-16 22:36:39
郭昊文赵柏清开局火爆内讧被弃用 福建大胜同曦皮特森42+7+7

郭昊文赵柏清开局火爆内讧被弃用 福建大胜同曦皮特森42+7+7

醉卧浮生
2026-03-16 22:03:42
快餐巨头宣布退市!广州有多家门店!

快餐巨头宣布退市!广州有多家门店!

广州生活美食圈
2026-03-16 15:36:11
2026-03-17 02:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14735文章数 66693关注度
往期回顾 全部

科技要闻

“龙虾”当道,五位养虾人探讨人类出路

头条要闻

马拉松冠军选手冲线时被拦停并强行带离赛道 本人发文

头条要闻

马拉松冠军选手冲线时被拦停并强行带离赛道 本人发文

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

梁文锋推迟V4,是为根治龙虾的健忘症?

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

旅游
房产
家居
本地
军事航空

旅游要闻

对俄免签半年 黑龙江俄籍游客增长超六成

房产要闻

操作真强!保利三亚,十年腊肉盘,要大规模商改住了!

家居要闻

简约之美 尘埃落定

本地新闻

坐标北京,过敏季反向迁徒

军事要闻

伊朗最高领袖重申“将向敌人索赔”

无障碍浏览 进入关怀版