网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

2025-09-27 12:53:24　来源: 量子位

北京举报

0

分享至

明星创业公司Thinking Machines，第二篇研究论文热乎出炉！

公司创始人、OpenAI前CTO Mira Murati依旧亲自站台，翁荔等一众大佬也纷纷转发支持：

论文主题为“Modular Manifolds”，通过让整个网络的不同层/模块在统一框架下进行约束和优化，来提升训练的稳定性和效率。

之所以进行这项研究，主要是为了解决神经网络训练中的一个基本挑战：

网络内部的张量（如权重、激活、梯度）若数值过大或过小，会引发不稳定、梯度爆炸/消失、训练效率低下等问题。

因此，论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形（Modular Manifolds），不仅对单个权重张量施加约束，还能把整个网络视为组合的流形结构，从而统一设计学习率、约束方式与优化逻辑。

网友们的反应be like：

对神经网络训练有深刻的见解。

将权重更新限制在流形上可以带来稳定性和可解释性，好奇能否扩展到非常大的模型？

带着这些肯定和疑惑，咱们接着看这到底是一项怎样的研究——

从向量在球面上优化→提出模块化流形

为什么需要流形约束？

原因正如开头所提到的，在训练大模型时，如果权重、激活值、梯度太大或太小，就会出现训练不稳定（溢出、消失、收敛速度慢等问题）。

之前为了解决这些问题，归一化方法逐渐成为“黄金标准”，包括激活归一化（如层归一化LayerNorm）、梯度归一化（优化器内部的规范化）等，但很少直接对权重矩阵本身进行归一化处理。

而作者认为，对权重矩阵进行归一化处理具有相当价值，其好处可能包括：

更容易把握优化过程中更新量的大小；
能够避免权重的范数变得过大，也就是防止权重“爆炸”的问题；
让研究员可以把调整超参数的精力，更多地放在那些对模型影响最大的张量上；
让矩阵的条件数变小，这样矩阵的行为就会更加稳定和可预测；

一句话，给权重矩阵归一化，可以让模型训练更稳定、更容易调整、行为更可预测，并且对外界干扰更有抵抗力。

基于此，作者希望设计一个几何化框架，把神经网络的权重参数约束在特定的Stiefel流形上，从而在训练时能够联合优化器与这些约束。

其核心研究过程大致有以下几个步骤：

Step 1：提供一个基础示例

假设要训练的参数是一个向量W，并且强制它始终在单位球面上：||W||=1。

如果用普通的Adam（自适应矩估计）/SGD（随机梯度下降）更新，更新后的向量可能就跑出球面。

为了解决这一问题，流形优化自有其“套路”：

先把梯度投影到切空间（球面上某点的切平面），保证更新方向合理；
然后更新参数；
最后用Retraction投影，把更新后的向量“拉回”到球面上。

而在这个过程中，我们核心需要思考两个问题：一是应该采用哪种流形约束，二是应该如何测量长度。通过做出不同的选择，最后可以创建出不同的优化算法，如下表所示：

Step 2：推广到矩阵参数

紧接着，作者将上述思路从向量（球面）推广到矩阵。

由于Transformer的权重矩阵（把输入的向量转换成输出的向量）动辄成千上万维，直接优化容易失控，因此作者提出把矩阵参数放在Stiefel流形上。

在Stiefel流形上的矩阵，它们的列向量都是正交的，而且条件数（一个衡量矩阵稳定性的指标）为1。

这样做的好处在于：

其一，向量正交可以确保不同方向上的信号不会相互干扰，这有助于模型学习到更加独立的特征；

其二，条件数为1意味着矩阵不会放大或缩小向量太多，这有助于保持数值稳定性，避免在计算过程中出现大的数值误差。

选定流形后，作者通过一系列步骤最终设计了一个适用于Stiefel流形的优化算法——流形Muon算法。

其流程大致包括：

在Stiefel流形的切空间上算梯度更新；
用一些矩阵运算（奇异值分解、sign函数等）确保更新合法；
再把结果投影回Stiefel流形。

Step 3：小规模实验验证

为了验证算法的合理性，作者随即进行了一个小规模实验（每次训练运行不到一分钟即可完成）。

他在CIFAR-10数据集上（一个包含10个类别的彩色图像数据集）训练了一个小MLP，对比了manifold Muon和AdamW这两种算法。

结果发现，前者在训练/测试准确率上略优于AdamW，且权重矩阵的奇异值都更集中、幅度稳定。

不过，虽然效果有提升，但每一步的运行时间倒是比AdamW稍慢一点（额外开销在dual ascent计算、投影等环节）。

作者表示，后续通过优化dual ascent步数、引入动量等方法，可以进一步减少额外开销。（意思是问题不大）

Step 4：最终推出“模块化流形”概念

以上验证了单个矩阵放到Stiefel流形上的有效性，那么问题来了——

多个层、多个模块怎么办？

对此，作者最终提出了模块化流形（Modular Manifolds）这一概念。

具体而言，作者把神经网络里的每一层或每一个模块都看成是一个单独的“流形”，它有自己定义的范数和专属的优化方法。

当这些模块组合成一个完整的网络时，就把它们的流形通过笛卡尔积拼接在一起，形成一个大的流形空间。

在这个大空间里，作者采用最大范数（max norm）的方式来统一分配学习率，相当于设置一个全局的更新上限，避免不同模块的步伐不一致。

这样一来，每一层仍然可以按照自己的规则在小空间里更新参数，但整个网络的更新过程又被全局机制约束住，从而保持协调和稳定。

总之，这条研究路线更强调整个模型训练流程的设计耦合，而不是“建一个模型+套一个优化器”。

一旦这套方法能在大型Transformer/LLM上成功应用，今后训练模型的效率和稳定性无疑都将获得极大提升。

论文唯一作者Jeremy Bernstein

最后简单介绍一下论文作者Jeremy Bernstein。

个人主页显示，他本科和硕士阶段都在剑桥大学三一学院接受物理理论与实验物理方面的教育，曾获得NVIDIA研究生奖学金。

后来去了加州理工攻读博士学位，研究方向转为计算与神经系统。

目前他既在Thinking Machines担任机器学习研究员，还在MIT从事博士后研究工作，致力于揭示自然与人工智能的计算与统计规律，从而设计出更加高效、自动、实用的学习系统。

从谷歌学术论文页面可以看到，其研究也大多集中在机器学习中的算法优化、模型鲁棒性、学习表示、以及优化器设计等方面。

另外经翁荔提醒，我们也去翻了翻Jeremy Bernstein给论文标下的一些小脚注。

原来，虽然论文署名只有一人，但其背后实打实离不开很多研究员的跨界合作。比如这项工作就涉及到数学、计算机科学以及工程学的大融合。

包括Jeremy Bernstein本人，从当初的物理专业逐渐转向数学、机器学习，怎么不算跨界带头人呢（doge）~

One More Thing

目前Thinking Machines已发布两篇研究论文。

首项研究成果发表于今年9月10日，研究主题为“Defeating Nondeterminism in LLM Inference”，克服大语言模型推理中的不确定性。

主要讨论的内容就是，为什么大模型每次的推理结果总是难以复现？根源在于批次不变性。

不过上次的作者名单相当简略，由一位华人面孔小哥Horace He主导，尚不清楚背后有没有Jeremy Bernstein的身影。

以及再补充一点，之前被曝加入Thinking Machines的清华姚班校友、普林斯顿教授陈丹琦，曾经也转发了这篇论文。

并且陈丹琦团队最新也带来了一篇关于可验证奖励强化学习的论文，标题是《Language Models that Think, Chat Better》，主要观点为：

可验证奖励强化学习（RLVR）在可验证领域之外也是有效的，并提出了“基于模型奖励思考的强化学习”（RL with Model-rewarded Thinking，RLMT），以实现通用聊天能力。

论文传送门已放文末，这里不再过多展开。

最后，肉眼可见Thinking Machines这家明星创业公司正在加速转动，随着研究成果不断涌出，第一个产品是不是也快了？

嗯，0产出估值就已冲破120亿美元（约合人民币840亿元），毫无疑问值得期待一波。

论文：
https://thinkingmachines.ai/blog/modular-manifolds/
陈丹琦团队新作：
https://arxiv.org/pdf/2509.20357

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

宜家终止7家在华门店运营，宜家中国：艰难的决定，公司会提供全面的安置支持！背后巨头重大调整

每日经济新闻 2026-01-31 00:55:18
12 跟贴 12
小方桌VS大圆桌：年轻人餐饮社交的范式转型与深层洞察

DT商业观察 2026-01-31 12:22:40
0 跟贴 0

大模型的第一性原理：（二）信号处理篇

机器之心Pro 2026-01-30 17:12:29
0 跟贴 0

天下苦CUDA久矣，又一国产方案上桌了

量子位 2026-01-30 21:59:52
0 跟贴 0
天干地支：古人的“宇宙代数”，3分钟说清计算方法和底层逻辑

九江老渭 2026-01-27 15:49:08
23 跟贴 23

钢筋基础模型制作教程，真的很好玩

科学大搜索 2026-01-28 21:36:25
1 跟贴 1

早报｜苹果发布2026新春影片/三星S26系列发布时间曝光：2月25日亮相/Clawdbot再改名

爱范儿 2026-01-31 09:03:25
0 跟贴 0
年羹尧与邬思道的谋略交锋，一句灯下黑理论替雍正解围

若一说剧 2026-01-29 15:57:59
9 跟贴 9

马斯克：最强对手来自中国

极目新闻 2026-01-30 15:34:51
5413 跟贴 5413
5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

量子位 2026-01-30 21:16:54
0 跟贴 0
Anthropic登顶全球第一，吃掉370亿市场！投资大佬连夜抛OpenAI股票

新智元 2026-01-31 13:02:56
0 跟贴 0
Agent学会“预测同伴”，神经网络里涌现出了类社会位置细胞

DeepTech深科技 2026-01-29 11:20:03
0 跟贴 0
告别软件定义！英伟达发布首款思维链VLA推理模型

车东西 2026-01-31 12:24:12
0 跟贴 0
深度长文: 量子世界，观测行为为什么会导致坍缩？

宇宙时空 2026-01-29 13:45:03
0 跟贴 0
五年级数学用一半模型求阴影部分面积

天天数理学习分享 2026-01-31 10:17:33
1 跟贴 1
投流与算法的“黑洞”——也许是一场被算法投流美化的庞氏幻觉

秦朔朋友圈 2025-12-09 07:04:49
0 跟贴 0
二次函数应用题压轴题，一个视频学会！

大鹏老师讲数学 2026-01-27 05:17:00
0 跟贴 0
大事不好！机器人学会预测未来了

量子位 2026-01-30 21:40:46
0 跟贴 0
以为一题都没对，结果全对了，市面上实在是没见过这么流畅的算法

中二探长 2026-01-27 14:39:30
0 跟贴 0
首批中国援泰国人道主义物资运抵曼谷

环球网资讯 2026-01-30 15:03:06
3519 跟贴 3519
深度长文：通俗理解爱因斯坦的广义和狭义相对论，收藏了！

宇宙时空 2026-01-26 19:05:03
7 跟贴 7
28年养育换28万彩礼，男子直呼逻辑不对，第一次见男人这么清醒

快乐笑弹库 2026-01-30 11:11:52
1 跟贴 1
金银一夜蒸发约7.4万亿美元相当于法国、英国GDP总和

澎湃新闻 2026-01-31 13:07:56
22 跟贴 22
刘盈拒兵出征藏着激励相容的底层逻辑

Hi科普啦 2026-01-30 15:01:35
3 跟贴 3
《熊磊挑起流量战：算法为梯，同行垫背，能火多久？》

秦总说娱乐 2026-01-31 11:02:52
0 跟贴 0
完美的工业品反而输给了“人为误差”？

爱笑无厘头 2026-01-28 16:34:12
270 跟贴 270
广州海珠湾隧道收费方案公布

新快报新闻 2026-01-30 14:11:04
900 跟贴 900
英国首相雨中逛上海豫园赏花灯开心买下48元蝴蝶酥

极目新闻 2026-01-30 20:13:19
346 跟贴 346
沪金夜盘收跌9.83% 沪银收跌17%

每日经济新闻 2026-01-31 06:22:50
259 跟贴 259
主动投案陈伟义正接受浙江省纪委监委审查调查

界面新闻 2026-01-30 19:49:19
36 跟贴 36
央国企里最典型的5大形式主义

职场资深秘书 2026-01-31 10:41:05
4 跟贴 4
韩国市民捡到375克金手镯

现代快报 2026-01-30 16:14:21
1234 跟贴 1234
揭秘！RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心Pro 2026-01-30 17:22:08
0 跟贴 0
一战再创多项历史！逆转辛纳，德约科维奇重返澳网决赛

环球网资讯 2026-01-30 23:21:13
418 跟贴 418
贵州一博士生意大利访学期间失联已10天，父母一夜急白了头，因经济拮据陷跨国寻亲困境

大风新闻 2026-01-30 18:07:12
260 跟贴 260
OpenAI发布免费科研神器Prism，复杂公式拍照上传自动生成LaTeX代码

量子位 2026-01-29 01:21:36
0 跟贴 0
内蒙古：坚决拥护党中央决定

澎湃新闻 2026-01-30 10:17:11
107 跟贴 107
深圳一公司年会举行豪横抽奖，两员工各抽中100克金条，价值十多万元，一人说“留着准备升值”

极目新闻 2026-01-30 19:08:19
264 跟贴 264
不是模型！不是游戏场景！成都曼哈顿，现实版“动漫居民楼”！

营天下 2026-01-29 12:08:28
0 跟贴 0
NeurIPS 2025 | DePass：通过单次前向传播分解实现统一特征归因

机器之心Pro 2025-12-01 14:17:39
0 跟贴 0

重庆市副市长但彦铮、市政府秘书长罗清泉，履新职

重庆市副市长但彦铮、市政府秘书长罗清泉，履新职

新京报政事儿

2026-01-31 12:03:56

“价格屠夫”：河北电商，正在“血洗”全国批发市场

“价格屠夫”：河北电商，正在“血洗”全国批发市场

苏格拉高

2026-01-31 07:50:47

刚刚判了！香港少男少女三人在停车场吸完后玩3P，现场多名目击者目瞪口呆，其中男子因穿校服被认出被捕！

刚刚判了！香港少男少女三人在停车场吸完后玩3P，现场多名目击者目瞪口呆，其中男子因穿校服被认出被捕！

澳门月刊

2026-01-30 13:33:05

库里23分伤退勇士不敌活塞，坎宁安29分11助攻杜伦21分13板

库里23分伤退勇士不敌活塞，坎宁安29分11助攻杜伦21分13板

湖人崛起

2026-01-31 13:53:38

押赴刑场！缅北女魔头明珍珍伏法了，当初迪拜炫富，现在刑场死囚

押赴刑场！缅北女魔头明珍珍伏法了，当初迪拜炫富，现在刑场死囚

今朝牛马

2026-01-30 20:12:32

澳网夺冠后，张帅名利双收！大满贯+1，分享392万奖金，排名上升

澳网夺冠后，张帅名利双收！大满贯+1，分享392万奖金，排名上升

刘姚尧的文字城堡

2026-01-31 11:53:02

家委会负责人要求成员帮收每生263.3元费用，还称交自己再换成现金给班主任，使用明细不能公示，有家长报警

家委会负责人要求成员帮收每生263.3元费用，还称交自己再换成现金给班主任，使用明细不能公示，有家长报警

大风新闻

2026-01-30 23:33:14

牢A反驳罗翔，算是踢到钢板了

大张的自留地

2026-01-30 15:10:44

只许特朗普放火，不许斯塔默点灯？

只许特朗普放火，不许斯塔默点灯？

新民周刊

2026-01-31 09:06:13

“硅基少女”现身上海，全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海，全球首款完全仿生具身智能机器人Moya发布

IT之家

2026-01-31 11:52:08

东契奇37分11板13助攻湖人战胜奇才，勒布朗20分6助攻

东契奇37分11板13助攻湖人战胜奇才，勒布朗20分6助攻

湖人崛起

2026-01-31 10:17:30

张帅夺冠后高情商发言：感谢搭档选择了我，你跟谁合作都能夺冠

张帅夺冠后高情商发言：感谢搭档选择了我，你跟谁合作都能夺冠

全景体育V

2026-01-31 12:13:15

再夺澳网冠军！中国金花手握五星红旗庆祝重返世界前10 激动相拥

再夺澳网冠军！中国金花手握五星红旗庆祝重返世界前10 激动相拥

侃球熊弟

2026-01-31 10:25:12

爆iPhone 18 Pro将首搭星链卫星通信，无需额外硬件实现“无死角”联网

爆iPhone 18 Pro将首搭星链卫星通信，无需额外硬件实现“无死角”联网

环球网资讯

2026-01-30 15:14:07

俄罗斯重新将14名日本人列为战犯

俄罗斯重新将14名日本人列为战犯

界面新闻

2026-01-31 07:18:15

河南一男子闯入女澡堂打人，洗浴中心：他进去打他媳妇；涉事男子已被警方控制

河南一男子闯入女澡堂打人，洗浴中心：他进去打他媳妇；涉事男子已被警方控制

扬子晚报

2026-01-30 12:20:05

烂尾的货，香饽饽

中国新闻周刊

2026-01-30 20:37:22

这么烂的美国，你为何要来两次？

这么烂的美国，你为何要来两次？

心路独舞

2026-01-28 09:10:22

终于有人把话说透了：当普通人存款到20–50万，危险的不是没钱

终于有人把话说透了：当普通人存款到20–50万，危险的不是没钱

李健政观察

2026-01-31 10:27:18

再见，高市早苗！再见，日本！

李荣茂

2026-01-31 05:28:14

追踪人工智能动态

12090文章数 176368关注度

往期回顾全部

财经要闻

白银，暴跌！黄金，40年最大跌幅！

头条要闻

金银一夜蒸发约7.4万亿美元相当于法国、英国GDP总和

头条要闻

金银一夜蒸发约7.4万亿美元相当于法国、英国GDP总和

体育要闻

“假赌黑”的子弹，还要再飞一会儿吗？

娱乐要闻

成龙入驻小红书，怼脸近照没有老年斑

科技要闻

中国车企和特斯拉的下一战，战场已定

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

教育

亲子

本地

家居

艺术要闻

15位当代国外画家的16幅具象人物绘画

教育要闻

南通教育的本质及厉害之处！

亲子要闻

萌娃疑惑的问妈妈：爸爸不帅也没钱，你为什么嫁给他？太逗了

本地新闻

云游中国｜拨开云雾，巫山每帧都是航拍大片

家居要闻

蓝调空舍自由与个性

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版