网易首页 > 网易号 > 正文 申请入驻

OpenAI大佬爆料:本科生靠一篇博客杀进OpenAI!没博士,0篇论文

0
分享至


新智元报道

编辑:Aeneas

【新智元导读】他没博士、没论文,却靠公开改进论文和跑基准测试,直接打动大佬、入职OpenAI!Noam Brown亲证:行动力和开源项目,才是逆袭顶级AI实验室的真正通行证。

就在今天,OpenAI传奇研究员 、德扑AI之父Noam Brown的一篇文章被刷屏了。

没有博士学位,没有研究背景,是否有可能在顶尖AI实验室找到工作?

这听起来像天方夜谭,但这个世界上奇妙的地方就在于,这样的例子还真不少。

比如,一个叫Keller Jordan的小哥,仅仅凭借一篇开源博客,就成功入职OpenAI,成为一名机器学习研究员!


是的,他没有写论文,而是将完整的研究过程、代码和实验结果在GitHub上完全开源。

最后Noam Brown总结道:虽然如今开放研究的空间比以前小了,但是在已有论文的基础上做改进,依然是一个向实验室研究员证明自己能力的绝佳方式!


这种做法,也会让对方更有信心,为你争取到一次面试机会。

从AI审核做起,走向人生巅峰

2020年,Keller毕业于UCSD,获得数学和计算机的双学士学位。

毕业时,他从未发表过任何一篇论文。

第一份工作, 是在一家人工智能内容审核初创公司。


有一天,他看到谷歌研究大牛Behnam最近发表的一篇论文,想到了一个改进思路,于是给Behnam发了一封邮件。

Behnam看到邮件后,同意指导这个年轻人。在没有人脉、没有背景的情况下,小哥就这样和大佬搭上了线。

更神奇的来了,这段合作,最终促成了一篇ICLR论文。

再后来,Keller的一项表现亮眼的工作「NanoGPT speed run」,直接改变了全新的研究范式,这不仅让特斯拉AI负责人Karpathy称赞不已,还引起了OpenAI的注意。

这不是一篇传统意义上的论文,却成为Keller命运的转折点。

因为他所有的工作都有完整记录,而且成果可量化、进展清晰,所以,OpenAI毫不犹豫地向他伸出了橄榄枝。

让Karpathy直呼「干得漂亮」

NanoGPT是Karpathy开源的一个项目,是一个极简的轻量级GPT训练和微调框架。

而Keller喜欢干的一件事,就是不断刷新NanoGPT的训练速度。为此,他不断尝试新的方法。

在2024年10月,他跑出了一个成果,将训练Transformer模型的token效率提高了3.8倍!


这也让他直接赢得Karpathy的盛赞。

NanoGPT speedrun的目标听起来非常简单:在固定模型规模(124M Transformer)和固定验证集损失目标(3.28 val loss)的前提下,用尽可能少的token、尽可能短的时间完成训练。

Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch训练代码,将其改造为一个可复现、可量化、可对比的基准。

最终,他让Token效率提升了3.8倍,而且从原本约10B tokens降低到2.7B tokens,即可达到目标loss。


这意味着,这个改进可以被严格验证,是一个硬指标。

让实验便宜到「人人能参与」

而且,Keller还非常有独创性。

与很多动辄需要数十万、上百万算力成本的训练不同,他在设计这个speedrun时,有一个非常明确的原则:让尝试新想法的成本足够低。

为此,他刻意做了几件事,比如让代码压缩到极简,只有537行;在8×H100的全新环境下,让安装和运行的时间仅为20分钟;甚至单次的尝试成本,低至8美元。

即使在今天的AI研究环境中,这也是一个极其罕见的设计选择。

这就意味着,从此不是只有大实验室才能参与,所有个人研究者、学生、独立工程师都能快速验证想法,创新不会再被算力门槛挡住。

被OpenAI注意到

就这样,NanoGPT speedrun成为了Keller逆袭之路上的关键一环。

一切都表明,这个成果非常硬:代码、日志、实验都完全可复现;在指标上,完全无法作弊;甚至,还有开发社区的真实参与。

甚至连验证方式都被设计得极其严谨:每一次speedrun的log文件中,都会包含完整代码副本。

任何人想复现一个新纪录,只需调用log文件即可。

Muon横空出世

而接下来,整件事情发展到了高潮。

在2024年底,他设计的神经网络隐藏层的优化器Muon横空出世,直接凭卓越性能刷新了NanoGPT和CIFAR-10训练速度的世界纪录!


Muon,是一种为神经网络2D参数隐藏层设计的优化器。它的核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。

它的实现简单高效,支持在bf16精度下稳定运行,显著降低了计算开销。


比起AdamW优化器,Muon在多个任务中,表现非常惊艳。

虽然AdamW能让GPT、LLaMA、Qwen学得又稳又快,但随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW的局限性开始显现。

虽然还未成为主流通用优化器,但Muon的出现表明,它很可能是AI模型训练领域的一次重大基础创新。

入职OpenAI

Muon在开发者社区的影响力越来越大,也就在同时,Keller于2024年12月,正式加入OpenAI。


有趣的是,Keller在2月份表示,虽然Muon火了,也帮他进入了OpenAI,但是他不会给Muon写一篇论文。

在他看来,与其在arXiv发一篇大概率被「淹没」的论文,还不如继续老老实实地研究自己的优化器。

毕竟在他看来,大多数优化器论文都是虚假的水文。


这些人,都成功逆袭大公司

此外,Noam Brown还列举了其他成功的案例。

比如被谷歌DeepMind发掘的Sholto Douglas。


他在X上十分低调,从未以一作身份发表过任何引人注目的论文,入行时间也只有一年半,然而,他却是Gemini成功的背后关键人物。


还在麦肯锡工作时,Sholto就逐渐确信AI会迎来爆发,于是开始在业余时间做自己的项目,还在Jax的GitHub上提出不少有洞见的问题。

这些表现打动了James Bradbury,最终被邀请到谷歌DeepMind去面试。

Andy Jones是一位半退休的量化分析师,在测试时计算还没火起来之前,他就写了一篇论文,毕竟了比较了扩大预训练规模和扩大测试时计算量的影响。


这篇论文让人印象极其深刻,并是因为刷新了某个基准,而是做出了非常聪明的设计选择,自己编写了GPU加速的环境,并且进行了严谨细致的消融实验。

最终,Andy Jones入职Anthropic。


参考资料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

有范又有料
2026-04-10 18:23:21
中美日一季度GDP差距断崖,美国7.32万亿,日本1.02万亿,中国呢

中美日一季度GDP差距断崖,美国7.32万亿,日本1.02万亿,中国呢

青烟小先生
2026-04-11 10:29:33
张雪峰离世18天,公司变化大!10点上班7点到,武亮做出三大承诺

张雪峰离世18天,公司变化大!10点上班7点到,武亮做出三大承诺

叨唠
2026-04-10 19:29:26
“喝酒四巨头”:一年全没,有的去世当天喝4瓶白酒,都不满36岁

“喝酒四巨头”:一年全没,有的去世当天喝4瓶白酒,都不满36岁

小蜜情感说
2026-04-11 13:03:31
米莱砍掉一半政府、削掉补贴,阿根廷没崩,反而撑住了

米莱砍掉一半政府、削掉补贴,阿根廷没崩,反而撑住了

桂系007
2026-04-11 03:43:09
亚锦赛:连爆大冷世界第1凤凰组合与第2第3都出局,决赛对阵出炉

亚锦赛:连爆大冷世界第1凤凰组合与第2第3都出局,决赛对阵出炉

求球不落谛
2026-04-11 13:23:02
“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

蝴蝶花雨话教育
2026-04-10 13:01:09
Tucker被特朗普骂"低智商"后,反手甩出90年代白宫电话录音

Tucker被特朗普骂"低智商"后,反手甩出90年代白宫电话录音

热搜摘要官
2026-04-11 08:02:41
以色列对欧洲谴责其袭击黎巴嫩真主党的反问

以色列对欧洲谴责其袭击黎巴嫩真主党的反问

名人苟或
2026-04-11 06:54:11
8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

映射生活的身影
2026-04-10 19:15:23
陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

青梅侃史啊
2026-04-09 19:57:58
突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

看财经show
2026-04-10 16:53:24
日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

时尚的弄潮
2026-04-11 15:09:39
李亚鹏不忍了!出手替陈光标出了口“恶气”,原来张雪当初没说谎

李亚鹏不忍了!出手替陈光标出了口“恶气”,原来张雪当初没说谎

社会日日鲜
2026-04-11 09:40:17
全红婵事件最新!嫌疑人被抓,央视曝处罚结果,牵连人员真相大白

全红婵事件最新!嫌疑人被抓,央视曝处罚结果,牵连人员真相大白

东风寄的千愁
2026-04-11 15:16:06
郑丽文访陆不按常理出牌,6天3城全在布局,两岸未来即将被改写

郑丽文访陆不按常理出牌,6天3城全在布局,两岸未来即将被改写

北纬的咖啡豆
2026-04-11 09:59:38
长得一模一样!男篮U18新星李沂泽疑似换名字、年龄改小2岁!

长得一模一样!男篮U18新星李沂泽疑似换名字、年龄改小2岁!

篮球大图
2026-04-11 09:52:02
张玲任天津市委常委

张玲任天津市委常委

新京报
2026-04-11 14:58:05
1948 新立屯战役,东野缴获 443 万发子弹,整师官兵却已壮烈牺牲

1948 新立屯战役,东野缴获 443 万发子弹,整师官兵却已壮烈牺牲

唠叨说历史
2026-04-09 12:43:00
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
2026-04-11 16:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14945文章数 66765关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

知名巨头CEO在美国的住宅凌晨被投燃烧弹 他发文回应

头条要闻

知名巨头CEO在美国的住宅凌晨被投燃烧弹 他发文回应

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
教育
游戏
家居
手机

亲子要闻

孩子烫伤后,并不是马上去医院!

教育要闻

脑科学揭秘:7岁前不养成3个脑习惯,孩子上了小学天天被找家长

效仿《红色沙漠》?新游惨痛发售:狂出更新补丁

家居要闻

复古风格 自然简约

手机要闻

小米三款手机今日起正式调价!REDMI K90 Pro Max上涨200元

无障碍浏览 进入关怀版