网易首页 > 网易号 > 正文 申请入驻

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

0
分享至

明星创业公司Thinking Machines,第二篇研究论文热乎出炉!

公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持:

论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率

之所以进行这项研究,主要是为了解决神经网络训练中的一个基本挑战:

网络内部的张量(如权重、激活、梯度)若数值过大或过小,会引发不稳定、梯度爆炸/消失、训练效率低下等问题。

因此,论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形(Modular Manifolds),不仅对单个权重张量施加约束,还能把整个网络视为组合的流形结构,从而统一设计学习率、约束方式与优化逻辑。

网友们的反应be like:

  • 对神经网络训练有深刻的见解。

  • 将权重更新限制在流形上可以带来稳定性和可解释性,好奇能否扩展到非常大的模型?

带着这些肯定和疑惑,咱们接着看这到底是一项怎样的研究——

从向量在球面上优化→提出模块化流形

为什么需要流形约束?

原因正如开头所提到的,在训练大模型时,如果权重、激活值、梯度太大或太小,就会出现训练不稳定(溢出、消失、收敛速度慢等问题)

之前为了解决这些问题,归一化方法逐渐成为“黄金标准”,包括激活归一化(如层归一化LayerNorm)、梯度归一化(优化器内部的规范化)等,但很少直接对权重矩阵本身进行归一化处理。

而作者认为,对权重矩阵进行归一化处理具有相当价值,其好处可能包括:

  • 更容易把握优化过程中更新量的大小;
  • 能够避免权重的范数变得过大,也就是防止权重“爆炸”的问题;
  • 让研究员可以把调整超参数的精力,更多地放在那些对模型影响最大的张量上;
  • 让矩阵的条件数变小,这样矩阵的行为就会更加稳定和可预测;

一句话,给权重矩阵归一化,可以让模型训练更稳定、更容易调整、行为更可预测,并且对外界干扰更有抵抗力。

基于此,作者希望设计一个几何化框架,把神经网络的权重参数约束在特定的Stiefel流形上,从而在训练时能够联合优化器与这些约束。

其核心研究过程大致有以下几个步骤:

Step 1:提供一个基础示例

假设要训练的参数是一个向量W,并且强制它始终在单位球面上:||W||=1。

如果用普通的Adam(自适应矩估计)/SGD(随机梯度下降)更新,更新后的向量可能就跑出球面。

为了解决这一问题,流形优化自有其“套路”:

  • 先把梯度投影到切空间(球面上某点的切平面),保证更新方向合理;
  • 然后更新参数;
  • 最后用Retraction投影,把更新后的向量“拉回”到球面上。

而在这个过程中,我们核心需要思考两个问题:一是应该采用哪种流形约束,二是应该如何测量长度。通过做出不同的选择,最后可以创建出不同的优化算法,如下表所示:

Step 2:推广到矩阵参数

紧接着,作者将上述思路从向量(球面)推广到矩阵。

由于Transformer的权重矩阵(把输入的向量转换成输出的向量)动辄成千上万维,直接优化容易失控,因此作者提出把矩阵参数放在Stiefel流形上。

在Stiefel流形上的矩阵,它们的列向量都是正交的,而且条件数(一个衡量矩阵稳定性的指标)为1。

这样做的好处在于:

其一,向量正交可以确保不同方向上的信号不会相互干扰,这有助于模型学习到更加独立的特征;

其二,条件数为1意味着矩阵不会放大或缩小向量太多,这有助于保持数值稳定性,避免在计算过程中出现大的数值误差。

选定流形后,作者通过一系列步骤最终设计了一个适用于Stiefel流形的优化算法——流形Muon算法

其流程大致包括:

  • 在Stiefel流形的切空间上算梯度更新;
  • 用一些矩阵运算(奇异值分解、sign函数等)确保更新合法;
  • 再把结果投影回Stiefel流形。

Step 3:小规模实验验证

为了验证算法的合理性,作者随即进行了一个小规模实验(每次训练运行不到一分钟即可完成)

他在CIFAR-10数据集上(一个包含10个类别的彩色图像数据集)训练了一个小MLP,对比了manifold Muon和AdamW这两种算法。

结果发现,前者在训练/测试准确率上略优于AdamW,且权重矩阵的奇异值都更集中、幅度稳定。

不过,虽然效果有提升,但每一步的运行时间倒是比AdamW稍慢一点(额外开销在dual ascent计算、投影等环节)

作者表示,后续通过优化dual ascent步数、引入动量等方法,可以进一步减少额外开销。(意思是问题不大)

Step 4:最终推出“模块化流形”概念

以上验证了单个矩阵放到Stiefel流形上的有效性,那么问题来了——

多个层、多个模块怎么办?

对此,作者最终提出了模块化流形(Modular Manifolds)这一概念。

具体而言,作者把神经网络里的每一层或每一个模块都看成是一个单独的“流形”,它有自己定义的范数和专属的优化方法。

当这些模块组合成一个完整的网络时,就把它们的流形通过笛卡尔积拼接在一起,形成一个大的流形空间。


在这个大空间里,作者采用最大范数(max norm)的方式来统一分配学习率,相当于设置一个全局的更新上限,避免不同模块的步伐不一致。

这样一来,每一层仍然可以按照自己的规则在小空间里更新参数,但整个网络的更新过程又被全局机制约束住,从而保持协调和稳定。

总之,这条研究路线更强调整个模型训练流程的设计耦合,而不是“建一个模型+套一个优化器”。

一旦这套方法能在大型Transformer/LLM上成功应用,今后训练模型的效率和稳定性无疑都将获得极大提升。

论文唯一作者Jeremy Bernstein

最后简单介绍一下论文作者Jeremy Bernstein。

个人主页显示,他本科和硕士阶段都在剑桥大学三一学院接受物理理论与实验物理方面的教育,曾获得NVIDIA研究生奖学金。

后来去了加州理工攻读博士学位,研究方向转为计算与神经系统。

目前他既在Thinking Machines担任机器学习研究员,还在MIT从事博士后研究工作,致力于揭示自然与人工智能的计算与统计规律,从而设计出更加高效、自动、实用的学习系统。

从谷歌学术论文页面可以看到,其研究也大多集中在机器学习中的算法优化、模型鲁棒性、学习表示、以及优化器设计等方面。

另外经翁荔提醒,我们也去翻了翻Jeremy Bernstein给论文标下的一些小脚注。

原来,虽然论文署名只有一人,但其背后实打实离不开很多研究员的跨界合作。比如这项工作就涉及到数学、计算机科学以及工程学的大融合。

包括Jeremy Bernstein本人,从当初的物理专业逐渐转向数学、机器学习,怎么不算跨界带头人呢(doge)~

One More Thing

目前Thinking Machines已发布两篇研究论文。

首项研究成果发表于今年9月10日,研究主题为“Defeating Nondeterminism in LLM Inference”,克服大语言模型推理中的不确定性。

主要讨论的内容就是,为什么大模型每次的推理结果总是难以复现?根源在于批次不变性。

不过上次的作者名单相当简略,由一位华人面孔小哥Horace He主导,尚不清楚背后有没有Jeremy Bernstein的身影。

以及再补充一点,之前被曝加入Thinking Machines的清华姚班校友、普林斯顿教授陈丹琦,曾经也转发了这篇论文。

并且陈丹琦团队最新也带来了一篇关于可验证奖励强化学习的论文,标题是《Language Models that Think, Chat Better》,主要观点为:

可验证奖励强化学习(RLVR)在可验证领域之外也是有效的,并提出了“基于模型奖励思考的强化学习”(RL with Model-rewarded Thinking,RLMT),以实现通用聊天能力。

论文传送门已放文末,这里不再过多展开。

最后,肉眼可见Thinking Machines这家明星创业公司正在加速转动,随着研究成果不断涌出,第一个产品是不是也快了?

嗯,0产出估值就已冲破120亿美元(约合人民币840亿元),毫无疑问值得期待一波。

论文:
https://thinkingmachines.ai/blog/modular-manifolds/
陈丹琦团队新作:
https://arxiv.org/pdf/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

千秋文化
2026-04-27 20:01:18
《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

喜欢历史的阿繁
2026-04-29 14:12:54
斯诺克世锦赛战报!四强诞生,卫冕冠军被淘汰,赵心童10-13墨菲

斯诺克世锦赛战报!四强诞生,卫冕冠军被淘汰,赵心童10-13墨菲

等等talk
2026-04-30 00:18:13
2026年5月十二生肖运势详解

2026年5月十二生肖运势详解

白龙王
2026-04-28 20:52:55
惊掉下巴!39 岁郑欣宜暴瘦现身,整张脸瘦脱形,差点没认出来

惊掉下巴!39 岁郑欣宜暴瘦现身,整张脸瘦脱形,差点没认出来

橙星文娱
2026-04-28 09:29:00
“这种孩子,注定被教育淘汰!”男孩在医院的一幕,令人看清现实

“这种孩子,注定被教育淘汰!”男孩在医院的一幕,令人看清现实

妍妍教育日记
2026-04-11 08:45:08
5月1日起严查!饭局、私下转账全被盯上

5月1日起严查!饭局、私下转账全被盯上

观星赏月
2026-04-29 19:35:29
今夜,集体暴跌!

今夜,集体暴跌!

中国基金报
2026-04-29 00:16:33
群体躺平很可怕,会引发连锁效应

群体躺平很可怕,会引发连锁效应

上峰视点
2026-04-29 12:04:44
江亚菲婚后9年没有孩子,一张10年前的病历单,让王海洋秘密曝光

江亚菲婚后9年没有孩子,一张10年前的病历单,让王海洋秘密曝光

卡西莫多的故事
2026-04-27 10:49:42
荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

狐狸先森讲升学规划
2026-04-29 05:50:03
中央政治局会议定调后,深圳率先响应!深圳房地产市场要稳了!

中央政治局会议定调后,深圳率先响应!深圳房地产市场要稳了!

深圳梦
2026-04-29 22:02:21
2013年,金正哲联手张成泽发动朝鲜兵变,因一细节败露,双遭反杀

2013年,金正哲联手张成泽发动朝鲜兵变,因一细节败露,双遭反杀

阿胡
2025-03-11 13:28:03
因未能如期获得加拿大签证,伊朗足协代表缺席本年度亚足联大会

因未能如期获得加拿大签证,伊朗足协代表缺席本年度亚足联大会

懂球帝
2026-04-30 01:07:14
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
美方提醒:若双方谈不拢,中国的武器装备可能会去美国大门口

美方提醒:若双方谈不拢,中国的武器装备可能会去美国大门口

聊历史的阿稼
2026-04-13 03:55:19
起底“性商教母”周媛

起底“性商教母”周媛

中国新闻周刊
2026-04-28 23:01:12
离婚不离家传闻仅1个月,42岁唐嫣近况曝出,估计和你想的不一样

离婚不离家传闻仅1个月,42岁唐嫣近况曝出,估计和你想的不一样

揽星河的笔记
2026-04-29 16:03:16
阿联酋突然退出欧佩克:此前直指海湾盟友“软弱”,或开启“欧佩克的终结”

阿联酋突然退出欧佩克:此前直指海湾盟友“软弱”,或开启“欧佩克的终结”

红星新闻
2026-04-28 23:18:18
纪委的朋友透露:贪官被查之前都有这三个前兆

纪委的朋友透露:贪官被查之前都有这三个前兆

细说职场
2026-04-23 15:31:19
2026-04-30 04:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12559文章数 176458关注度
往期回顾 全部

财经要闻

苏州,率先进入牛市

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

健康
教育
房产
数码
军事航空

干细胞治烧烫伤能用了么?

教育要闻

高考地理中的艺术治疗

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

数码要闻

极米RS30系列投影仪发布,8822-13499元

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版