网易首页 > 网易号 > 正文 申请入驻

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

0
分享至

明星创业公司Thinking Machines,第二篇研究论文热乎出炉!

公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持:



论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率

之所以进行这项研究,主要是为了解决神经网络训练中的一个基本挑战:

网络内部的张量(如权重、激活、梯度)若数值过大或过小,会引发不稳定、梯度爆炸/消失、训练效率低下等问题。

因此,论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形(Modular Manifolds),不仅对单个权重张量施加约束,还能把整个网络视为组合的流形结构,从而统一设计学习率、约束方式与优化逻辑。



网友们的反应be like:

  • 对神经网络训练有深刻的见解。



  • 将权重更新限制在流形上可以带来稳定性和可解释性,好奇能否扩展到非常大的模型?



带着这些肯定和疑惑,咱们接着看这到底是一项怎样的研究——

从向量在球面上优化→提出模块化流形

为什么需要流形约束?

原因正如开头所提到的,在训练大模型时,如果权重、激活值、梯度太大或太小,就会出现训练不稳定(溢出、消失、收敛速度慢等问题)

之前为了解决这些问题,归一化方法逐渐成为“黄金标准”,包括激活归一化(如层归一化LayerNorm)、梯度归一化(优化器内部的规范化)等,但很少直接对权重矩阵本身进行归一化处理。

而作者认为,对权重矩阵进行归一化处理具有相当价值,其好处可能包括:

  • 更容易把握优化过程中更新量的大小;
  • 能够避免权重的范数变得过大,也就是防止权重“爆炸”的问题;
  • 让研究员可以把调整超参数的精力,更多地放在那些对模型影响最大的张量上;
  • 让矩阵的条件数变小,这样矩阵的行为就会更加稳定和可预测;

一句话,给权重矩阵归一化,可以让模型训练更稳定、更容易调整、行为更可预测,并且对外界干扰更有抵抗力。

基于此,作者希望设计一个几何化框架,把神经网络的权重参数约束在特定的Stiefel流形上,从而在训练时能够联合优化器与这些约束。

其核心研究过程大致有以下几个步骤:

Step 1:提供一个基础示例

假设要训练的参数是一个向量W,并且强制它始终在单位球面上:||W||=1。

如果用普通的Adam(自适应矩估计)/SGD(随机梯度下降)更新,更新后的向量可能就跑出球面。

为了解决这一问题,流形优化自有其“套路”:

  • 先把梯度投影到切空间(球面上某点的切平面),保证更新方向合理;
  • 然后更新参数;
  • 最后用Retraction投影,把更新后的向量“拉回”到球面上。



而在这个过程中,我们核心需要思考两个问题:一是应该采用哪种流形约束,二是应该如何测量长度。通过做出不同的选择,最后可以创建出不同的优化算法,如下表所示:



Step 2:推广到矩阵参数

紧接着,作者将上述思路从向量(球面)推广到矩阵。

由于Transformer的权重矩阵(把输入的向量转换成输出的向量)动辄成千上万维,直接优化容易失控,因此作者提出把矩阵参数放在Stiefel流形上。

在Stiefel流形上的矩阵,它们的列向量都是正交的,而且条件数(一个衡量矩阵稳定性的指标)为1。

这样做的好处在于:

其一,向量正交可以确保不同方向上的信号不会相互干扰,这有助于模型学习到更加独立的特征;

其二,条件数为1意味着矩阵不会放大或缩小向量太多,这有助于保持数值稳定性,避免在计算过程中出现大的数值误差。



选定流形后,作者通过一系列步骤最终设计了一个适用于Stiefel流形的优化算法——流形Muon算法

其流程大致包括:

  • 在Stiefel流形的切空间上算梯度更新;
  • 用一些矩阵运算(奇异值分解、sign函数等)确保更新合法;
  • 再把结果投影回Stiefel流形。



Step 3:小规模实验验证

为了验证算法的合理性,作者随即进行了一个小规模实验(每次训练运行不到一分钟即可完成)

他在CIFAR-10数据集上(一个包含10个类别的彩色图像数据集)训练了一个小MLP,对比了manifold Muon和AdamW这两种算法。

结果发现,前者在训练/测试准确率上略优于AdamW,且权重矩阵的奇异值都更集中、幅度稳定。

不过,虽然效果有提升,但每一步的运行时间倒是比AdamW稍慢一点(额外开销在dual ascent计算、投影等环节)



作者表示,后续通过优化dual ascent步数、引入动量等方法,可以进一步减少额外开销。(意思是问题不大)

Step 4:最终推出“模块化流形”概念

以上验证了单个矩阵放到Stiefel流形上的有效性,那么问题来了——

多个层、多个模块怎么办?

对此,作者最终提出了模块化流形(Modular Manifolds)这一概念。

具体而言,作者把神经网络里的每一层或每一个模块都看成是一个单独的“流形”,它有自己定义的范数和专属的优化方法。

当这些模块组合成一个完整的网络时,就把它们的流形通过笛卡尔积拼接在一起,形成一个大的流形空间。




在这个大空间里,作者采用最大范数(max norm)的方式来统一分配学习率,相当于设置一个全局的更新上限,避免不同模块的步伐不一致。

这样一来,每一层仍然可以按照自己的规则在小空间里更新参数,但整个网络的更新过程又被全局机制约束住,从而保持协调和稳定。

总之,这条研究路线更强调整个模型训练流程的设计耦合,而不是“建一个模型+套一个优化器”。

一旦这套方法能在大型Transformer/LLM上成功应用,今后训练模型的效率和稳定性无疑都将获得极大提升。

论文唯一作者Jeremy Bernstein

最后简单介绍一下论文作者Jeremy Bernstein。



个人主页显示,他本科和硕士阶段都在剑桥大学三一学院接受物理理论与实验物理方面的教育,曾获得NVIDIA研究生奖学金。

后来去了加州理工攻读博士学位,研究方向转为计算与神经系统。

目前他既在Thinking Machines担任机器学习研究员,还在MIT从事博士后研究工作,致力于揭示自然与人工智能的计算与统计规律,从而设计出更加高效、自动、实用的学习系统。

从谷歌学术论文页面可以看到,其研究也大多集中在机器学习中的算法优化、模型鲁棒性、学习表示、以及优化器设计等方面。



另外经翁荔提醒,我们也去翻了翻Jeremy Bernstein给论文标下的一些小脚注。

原来,虽然论文署名只有一人,但其背后实打实离不开很多研究员的跨界合作。比如这项工作就涉及到数学、计算机科学以及工程学的大融合。



包括Jeremy Bernstein本人,从当初的物理专业逐渐转向数学、机器学习,怎么不算跨界带头人呢(doge)~

One More Thing

目前Thinking Machines已发布两篇研究论文。



首项研究成果发表于今年9月10日,研究主题为“Defeating Nondeterminism in LLM Inference”,克服大语言模型推理中的不确定性。

主要讨论的内容就是,为什么大模型每次的推理结果总是难以复现?根源在于批次不变性。

不过上次的作者名单相当简略,由一位华人面孔小哥Horace He主导,尚不清楚背后有没有Jeremy Bernstein的身影。



以及再补充一点,之前被曝加入Thinking Machines的清华姚班校友、普林斯顿教授陈丹琦,曾经也转发了这篇论文。



并且陈丹琦团队最新也带来了一篇关于可验证奖励强化学习的论文,标题是《Language Models that Think, Chat Better》,主要观点为:

可验证奖励强化学习(RLVR)在可验证领域之外也是有效的,并提出了“基于模型奖励思考的强化学习”(RL with Model-rewarded Thinking,RLMT),以实现通用聊天能力。



论文传送门已放文末,这里不再过多展开。

最后,肉眼可见Thinking Machines这家明星创业公司正在加速转动,随着研究成果不断涌出,第一个产品是不是也快了?

嗯,0产出估值就已冲破120亿美元(约合人民币840亿元),毫无疑问值得期待一波。

论文:
https://thinkingmachines.ai/blog/modular-manifolds/
陈丹琦团队新作:
https://arxiv.org/pdf/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆市副市长但彦铮、市政府秘书长罗清泉,履新职

重庆市副市长但彦铮、市政府秘书长罗清泉,履新职

新京报政事儿
2026-01-31 12:03:56
“价格屠夫”:河北电商,正在“血洗”全国批发市场

“价格屠夫”:河北电商,正在“血洗”全国批发市场

苏格拉高
2026-01-31 07:50:47
刚刚判了!香港少男少女三人在停车场吸完后玩3P,现场多名目击者目瞪口呆,其中男子因穿校服被认出被捕!

刚刚判了!香港少男少女三人在停车场吸完后玩3P,现场多名目击者目瞪口呆,其中男子因穿校服被认出被捕!

澳门月刊
2026-01-30 13:33:05
库里23分伤退勇士不敌活塞,坎宁安29分11助攻杜伦21分13板

库里23分伤退勇士不敌活塞,坎宁安29分11助攻杜伦21分13板

湖人崛起
2026-01-31 13:53:38
押赴刑场!缅北女魔头明珍珍伏法了,当初迪拜炫富,现在刑场死囚

押赴刑场!缅北女魔头明珍珍伏法了,当初迪拜炫富,现在刑场死囚

今朝牛马
2026-01-30 20:12:32
澳网夺冠后,张帅名利双收!大满贯+1,分享392万奖金,排名上升

澳网夺冠后,张帅名利双收!大满贯+1,分享392万奖金,排名上升

刘姚尧的文字城堡
2026-01-31 11:53:02
家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

家委会负责人要求成员帮收每生263.3元费用,还称交自己再换成现金给班主任,使用明细不能公示,有家长报警

大风新闻
2026-01-30 23:33:14
牢A反驳罗翔,算是踢到钢板了

牢A反驳罗翔,算是踢到钢板了

大张的自留地
2026-01-30 15:10:44
只许特朗普放火,不许斯塔默点灯?

只许特朗普放火,不许斯塔默点灯?

新民周刊
2026-01-31 09:06:13
“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

IT之家
2026-01-31 11:52:08
东契奇37分11板13助攻湖人战胜奇才,勒布朗20分6助攻

东契奇37分11板13助攻湖人战胜奇才,勒布朗20分6助攻

湖人崛起
2026-01-31 10:17:30
张帅夺冠后高情商发言:感谢搭档选择了我,你跟谁合作都能夺冠

张帅夺冠后高情商发言:感谢搭档选择了我,你跟谁合作都能夺冠

全景体育V
2026-01-31 12:13:15
再夺澳网冠军!中国金花手握五星红旗庆祝 重返世界前10 激动相拥

再夺澳网冠军!中国金花手握五星红旗庆祝 重返世界前10 激动相拥

侃球熊弟
2026-01-31 10:25:12
爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

环球网资讯
2026-01-30 15:14:07
俄罗斯重新将14名日本人列为战犯

俄罗斯重新将14名日本人列为战犯

界面新闻
2026-01-31 07:18:15
河南一男子闯入女澡堂打人,洗浴中心:他进去打他媳妇;涉事男子已被警方控制

河南一男子闯入女澡堂打人,洗浴中心:他进去打他媳妇;涉事男子已被警方控制

扬子晚报
2026-01-30 12:20:05
烂尾的货,香饽饽

烂尾的货,香饽饽

中国新闻周刊
2026-01-30 20:37:22
这么烂的美国,你为何要来两次?

这么烂的美国,你为何要来两次?

心路独舞
2026-01-28 09:10:22
终于有人把话说透了:当普通人存款到20–50万,危险的不是没钱

终于有人把话说透了:当普通人存款到20–50万,危险的不是没钱

李健政观察
2026-01-31 10:27:18
再见,高市早苗!再见,日本!

再见,高市早苗!再见,日本!

李荣茂
2026-01-31 05:28:14
2026-01-31 14:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12090文章数 176368关注度
往期回顾 全部

财经要闻

白银,暴跌!黄金,40年最大跌幅!

头条要闻

金银一夜蒸发约7.4万亿美元 相当于法国、英国GDP总和

头条要闻

金银一夜蒸发约7.4万亿美元 相当于法国、英国GDP总和

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

科技要闻

中国车企和特斯拉的下一战,战场已定

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
教育
亲子
本地
家居

艺术要闻

15位当代国外画家的16幅具象人物绘画

教育要闻

南通教育的本质及厉害之处!

亲子要闻

萌娃疑惑的问妈妈:爸爸不帅也没钱,你为什么嫁给他?太逗了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

蓝调空舍 自由与个性

无障碍浏览 进入关怀版