网易首页 > 网易号 > 正文 申请入驻

估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」

0
分享至

新智元报道

编辑:元宇

【新智元导读】在大模型训练时,如何管理权重、避免数值爆炸与丢失?Thinking Machines Lab 的新研究「模块流形」提出了一种新范式,它将传统「救火式」的数值修正,转变为「预防式」的约束优化,为更好地训练大模型提供了全新思路。

刚刚,OpenAI前CTO Mira Murati创办的Thinking Machines Lab再次发布成果!

这是他们继(Defeating Nondeterminism in LLM Inference)之后,第二篇研究文章——《模块流形》(Modular Manifolds)。

博客地址:https://thinkingmachines.ai/blog/modular-manifolds/

训练大型神经网络如同「走钢丝」,必须小心翼翼地维持其内部「健康」,防止权重、激活值或梯度这些关键张量变得过大或过小,以免引发数值溢出等一系列问题。

其中一个重要的思路,是为大模型提供一套统一的量级管理。

首先是稳住基本盘。

使用Layer Norm技术把每层的输出拉回合适范围,对激活向量进行归一化(normalization)这也是目前一种普遍的做法。

对梯度更新进行归一化也很常见,例如Muon优化器对更新进行谱归一化处理,使每一步更新的幅度可控。

再进一步,是直接「管住」权重本体。

归一化权重矩阵是一个值得尝试的方向。

文中提出了一种重新思考优化算法提供了新视角:将权重张量约束在某个子流形(submanifold)上,以便与这些流形约束协同设计优化算法。

这好比把「救火」变「预防」:

一开始就把参数放在健康区间,让训练更稳、更具解释性,从而使大模型可以更稳定、高效地训练起来。

流形优化器的形态

我们知道,流形只是一个局部看起来很平坦的曲面。

如果放大到足够多,它看起来就像是一个普通平面。

流形上某一点附近的局部平坦空间称为「切空间」(tangent space)。

如图1所示,三维球面或更高维度的超球面是一个流形,图中以红色部分表示其在某点的切平面。

为了让权重能够「待在」指定的流形里,一个简单的方法是使用普通优化器,在每步更新后将权重投影回流形。

但问题是如果优化步骤偏离流形太多,再被强制投影回来,这会导致名义学习率不再对应参数在流形上的实际位移,从而削弱我们对「步长—效果」关系的直觉。

想在流形上认真设计训练算法,必须先想清楚:在切空间里怎么度量「距离」?

一个解决思路是直接在切空间中进行优化。这样,每一步都是沿着流形「表面」走,学习率能更好地对应「实际位移」。

常见的选择是欧几里得距离,但也可以选择以其他方式测量距离,如图2所示。

值得注意的是,距离度量方式的选择会直接影响最优优化步骤的方向。

图3中,粉色箭头表示原始梯度——即损失函数对权重的偏导数(partial derivative)。

也就是说,我们不一定非要严格按照梯度方向移动。

为了用数学表达这个过程,我们可以把「在流形约束和特定距离度量下的最优更新方向」看作一个带约束的优化问题,可以用一个搭配欧几里得范数的超球面来举例。

用g表示梯度, w表示超球面上的当前点, a表示更新方向, η表示学习率,我们需要解决的问题是:

再回到图 1、2 和3所展示的可视化语言,这个公式的意思是:绿色箭头(也就是a的最优解)必须同时满足两个条件:

一是它要落在红色的切平面上,二是它必须在半径为η的黄色圆圈上。

我们可以应用拉格朗日乘数法来求解。

其中λ和μ是拉格朗日乘子。

对这个拉格朗日函数对a求导并令其为零,然后结合两个约束条件求解λ和μ,就可以得到最优更新方向。

简单来说最优更新的做法是:先从梯度中减去与w同方向的径向分量,即把梯度投影到切空间上,然后将结果归一化,再乘以学习率。

这样得到的更新方向就在切空间里了。

图4中显示这个微小的修正过程被称为「回缩映射」(retraction map)。

完整的流形优化算法如下:

总结来说,一阶流形优化器包含三个步骤:

  • 找到一个单位长度的切向量,在梯度方向上尽可能远;

  • 用学习率乘以这个方向,然后从当前权重中减去;

  • 把更新后的权重通过回缩映射拉回流形上。

在执行这一流程时,我们需要决定选择什么样的流形来作为约束,此外是如何定义「长度」的度量方式。

根据这两个选择的不同,我们就能得到不同的优化算法,具体见下表。

流形Muon

Transformer中的典型权重矩阵W是一个「向量变换器」,即它将输入向量x
转换为输出向量y=Wx。

我们希望设计一种流形约束和距离函数,使得该矩阵对输入向量的作用合理:既不应导致输出值过大或过小,也不应在更新权重时引起输出向量剧烈变化或几乎无变化。

一个思考矩阵如何作用于向量的好方法是使用奇异值分解(SVD),如图 5 所示。

SVD以分解矩阵的方式显示矩阵如何沿着不同的轴拉伸输入向量。

我们希望矩阵的「拉伸效应」接近于1,因此选择了一个所有奇异值均为1的矩阵流形。

这种矩阵流形在数学上被称为Stiefel流形,在高矩阵( m≥n)的假设下,它可以等价地定义为以下集合:

要为Stiefel流形设计优化器,还需选择一个合适的距离函数。

为限制权重更新对输入向量的最大拉伸作用,谱范数(spectral norm),即矩阵最大奇异值的度量是一个合适的选项。

虽然它只约束了最大效应,但由于优化器会饱和这一上限,因此也能间接防止最小效应过小。

正是这一想法,促成了Muon优化器的提出。

这一想法与Stiefel流形约束结合后,就形成了「manifold Muon」问题

文中的一个关键发现是一个凸优化问题,可以通过标准方法——对偶上升法(dual ascent)来求解。

经过推导,对偶函数的梯度为:

通过一个小实验,可以验证算法的可行性,实验设置与结果见图6。

模块流形

这里还有一个重要的问题:当我们将多个层组合起来构建完整的神经网络时,会发生什么?

是否需要关注层与层之间的交互,并据此修改优化策略?

这需要一种可以将前文介绍的推导逻辑推广到整个神经网络的方法——模块流形(modular manifolds)理论。

该理论的核心思想是:构建一种抽象机制,用来指导如何在各层之间合理分配学习率。

在本质上,在不同层之间分配学习率,或者对单个层进行缩放,都依赖于我们对网络输出对权重的Lipschitz敏感性的理解。

我们在搭建网络的过程中会追踪这种敏感性,而流形约束有助于我们更加精准地把握它。

参考资料:

https://thinkingmachines.ai/blog/modular-manifolds/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

川渝视觉
2026-04-17 22:13:14
岳阳大叔为鱼池通水独自清理沟渠杂草,小伙开挖机帮忙:曾帮父亲喂鱼,懂养鱼人的辛酸

岳阳大叔为鱼池通水独自清理沟渠杂草,小伙开挖机帮忙:曾帮父亲喂鱼,懂养鱼人的辛酸

潇湘晨报
2026-05-02 14:54:14
儿子深夜生幻觉屡次性侵母亲,妇女终于无法忍受,凌晨挥刀

儿子深夜生幻觉屡次性侵母亲,妇女终于无法忍受,凌晨挥刀

长安一孤客
2026-04-26 13:18:18
赵构活了八十岁,为何五十五岁就禅位,将皇位交给赵匡胤一脉子孙

赵构活了八十岁,为何五十五岁就禅位,将皇位交给赵匡胤一脉子孙

雍亲王府
2026-05-03 11:40:12
新加坡很想哭,却不敢大声哭出来!

新加坡很想哭,却不敢大声哭出来!

华人星光
2026-05-03 11:43:07
55岁"纸片人"鲁豫,与小19岁男友同居后变样,如今她令人大跌眼镜

55岁"纸片人"鲁豫,与小19岁男友同居后变样,如今她令人大跌眼镜

观察鉴娱
2026-04-17 09:43:01
孙杨的“巨婴”人生:一顿吃掉1.5万把整个团队经费干到只剩3600

孙杨的“巨婴”人生:一顿吃掉1.5万把整个团队经费干到只剩3600

乐悠悠娱乐
2026-05-02 13:59:24
5月开始,"北京特区"正式亮相!

5月开始,"北京特区"正式亮相!

大山说房
2026-05-02 17:52:42
加快男性衰老的原因:喝酒仅排第5,排在第1的,很多男性都没发现

加快男性衰老的原因:喝酒仅排第5,排在第1的,很多男性都没发现

芹姐说生活
2026-04-30 16:07:48
2万海员被困霍尔木兹,生活曝光!中国船员:战机在空中飞,人在船上刷国旗保命!国际海事组织:整个海域已无安全通行可言

2万海员被困霍尔木兹,生活曝光!中国船员:战机在空中飞,人在船上刷国旗保命!国际海事组织:整个海域已无安全通行可言

每日经济新闻
2026-05-01 01:05:05
职场规则迎来变动!5月起多类行为入刑,工薪一族赶紧自查避坑

职场规则迎来变动!5月起多类行为入刑,工薪一族赶紧自查避坑

芳姐侃社会
2026-05-03 12:46:04
官方:F1迈阿密站正赛提前3小时进行!

官方:F1迈阿密站正赛提前3小时进行!

五星体育
2026-05-03 10:23:23
掘金该如何继续冲冠?名记支招重磅交易:用穆雷换杜兰特+首轮签

掘金该如何继续冲冠?名记支招重磅交易:用穆雷换杜兰特+首轮签

罗说NBA
2026-05-03 06:52:07
高市早苗对天皇发重誓,不到48小时,王毅就接到美国急电,有要事

高市早苗对天皇发重誓,不到48小时,王毅就接到美国急电,有要事

桑启红原
2026-05-03 12:01:28
0-0后!国米打平就夺冠,意甲黑马难了:差尤文2分,前4呼之欲出

0-0后!国米打平就夺冠,意甲黑马难了:差尤文2分,前4呼之欲出

体育知多少
2026-05-03 07:07:03
脸都不要了!德国乒协炮轰国际乒联!世乒赛这么干就是为了钱!

脸都不要了!德国乒协炮轰国际乒联!世乒赛这么干就是为了钱!

最爱乒乓球
2026-05-02 13:55:34
有一种“反噬”叫张碧晨和华晨宇,分手7年,两人的境遇天翻地覆

有一种“反噬”叫张碧晨和华晨宇,分手7年,两人的境遇天翻地覆

暖心萌阿菇凉
2026-05-01 01:20:35
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
美联储迎来“史上最有钱”主席,黄金要变天了

美联储迎来“史上最有钱”主席,黄金要变天了

上观新闻
2026-05-02 22:31:04
康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

康凯:把“张飞”演成傻子,无戏可拍11年,如今现状令人唏嘘

流云随风去远方
2026-04-18 15:35:50
2026-05-03 16:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15120文章数 66830关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

巴菲特正式“退役”伯克希尔新掌门阿贝尔股东会首秀

头条要闻

巴菲特正式“退役”伯克希尔新掌门阿贝尔股东会首秀

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
健康
时尚
手机
艺术

旅游要闻

入梦台城 · 穿越古今|台儿庄古城偶遇花神、镖师、说书人,游客直呼“演上了”

干细胞治烧烫伤面临这些“瓶颈”

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

手机要闻

W17周新机销量盘点,华为是真牛!OPPO、小米也不错

艺术要闻

耐克纽约新总部,工业运动风设计!

无障碍浏览 进入关怀版