网易首页 > 网易号 > 正文 申请入驻

Scaling Law无法无限扩展?科学家揭示低精度训练的极限

0
分享至

这些年大模型的发展史,某种程度上也是模型规模不断扩张的历史。更大规模的模型参数带来了性能的不断提升,但与此同时,计算成本也急剧增加。

为了降低计算成本,低精度训练与推理成为了一种行之有效的策略,它能通过减少计算量和内存占用来提升训练效率和推理速度。例如 Llama-3 405B,就采用了 BF16(即 16 位浮点,而非传统的 32 位)精度进行训练。

且随着硬件支持的逐渐发展,专门为低精度计算设计的计算单元和优化的内存架构不断涌现,使得 FP8、FP4 等更低精度的训练方式逐渐成为可能,能在减少计算和存储成本的同时,保持模型的数值稳定性和性能。于是,目前有关缩放定律的研究似乎并未充分考虑精度这一因素的影响。

那么,代价是什么呢?

在这一背景下,来自哈佛大学、斯坦福大学与 MIT 等机构的合作团队提出:随着模型规模的不断扩大,低精度的量化或将不再有效。

相关论文以《精度感知的缩放定律》(Scaling Laws for Precision)为题,发表在预印本网站arXiv上 [1]。

在低精度训练中,模型的 Scaling Laws 变得更加复杂,因为量化带来的误差可能影响模型的准确性,尤其是在处理大量数据时。传统的 Scaling Laws 多基于高精度训练,并未考虑低精度带来的误差放大效应。

为此,团队提出了一种“精度感知”(precision-aware)的缩放定律,相比以往研究,该定律不仅考虑了模型参数的数量和数据规模,还引入了精度这一新的维度,来研究其对训练和推理损失的影响。

为了探索这一问题,研究团队对 465 个语言模型进行了实验,这些模型的规模从 3000 万到 17 亿个参数不等,并使用了包含 260 亿 tokens 的数据集进行训练。实验中涵盖了不同精度的组合,从 3 位到 16 位,模拟了多种低精度环境,以研究其对模型性能和计算效率的影响。

首先,研究分析了后训练量化(Post-Train Quantization, PTQ)的影响。后训练量化是指在模型完成训练后,将其高精度的权重量化为低精度,以减少推理时的存储需求。这种方法通常被用于深度学习模型的部署阶段,以节省硬件资源。

然而,团队发现,后训练量化带来的模型性能损失会随着训练数据量的增加而增加,特别是在低精度下,这种损失可能非常显著。

具体来说,随着数据量的增加,模型的权重逐渐变得更加“紧凑”,而这种紧凑性使得在进行低精度量化时,模型更容易出现较大的性能损失。因此,增加训练数据并不总是能带来推理阶段的性能提升,尤其是在需要进行量化的情况下,这样的训练数据量可能会使模型的推理性能下降。

为了进一步理解低精度训练的影响,研究者对不同部分的低精度训练进行了单独实验,包括仅量化权重的“量化感知训练”(Quantization-Aware Training)和对权重、激活及 KV 缓存同时量化的“低精度训练”(Low-Precision Training)。

通过这些实验,研究者分别观察了各组件在不同精度设置下对模型损失的影响,并总结了低精度训练对模型整体性能的作用机制。

实验结果显示,在较低精度下,增加权重的位精度所带来的收益很大,但在较高精度下会趋于饱和。

相比之下,激活和 KV 缓存在更低精度下的量化则可能显著增加模型的损失。

通过这些实验,研究者意识到各个组件的低精度效果是相对独立的,但同时存在一个共同的现象:模型的总有效参数数会随着各组件精度的降低而显著下降,进而导致模型损失的上升。

虽然在权重精度较低时,增加模型参数可以使模型达到与高精度小模型相似的性能。但对于那些极低精度(例如 INT3 或 FP4)的训练,即使模型的总参数数量增加,其学习能力和表现也可能大幅度下降,因为这些低精度参数无法完全捕捉复杂的数据特征。

所以,随着数据量的增加,使用更高的训练精度可以更好地利用这些数据,从而提高模型的性能。

为了将训练与推理阶段的精度、参数和数据之间的相互作用统一起来,研究团队提出了一种统一的精度缩放定律。该定律综合了训练中的损失、后训练量化中的损失,以及它们在不同精度设置下的表现,其公式如下:

通过将训练损失和推理损失结合在一起,研究由此提供了一个统一的框架来预测低精度训练和量化后的性能。这种精确的建模使得研究者能够预测在不同训练和推理精度组合下的性能变化,从而为未来模型的精度选择提供了理论依据。

团队指出,尽管 16 位精度(BF16)已成为训练大规模模型的常规选择,但实际上 7 到 8 位精度可能在计算成本与性能之间达到更优的平衡点,并进一步指出在极低精度(如 4 位以下)下,模型的有效参数数将显著减少,导致需要成倍增加参数量以维持模型性能,这在实际中或许行不通。

综上,这项研究通过一系列精度实验与理论推导,揭示了低精度训练对模型性能的深远影响。通过精度感知的扩展规律,研究者不仅为低精度模型训练提供了科学依据,也为未来模型的精度优化指明了方向。

有学者表示,“这是长期以来最重要的一篇论文。它以强有力的证据表明,我们正在达到量化的极限”,它或许意味着,我们的思维模式“将很快从规模化转变为‘我们能用现有资源做什么’”。

参考资料:

1.https://arxiv.org/abs/2411.04330

2.https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

3.https://x.com/Tim_Dettmers/status/1856338255408517388

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
F-勒布伦:我们日复一日训练,就是为了迎接和中国的重量级对决

F-勒布伦:我们日复一日训练,就是为了迎接和中国的重量级对决

懂球帝
2026-05-09 13:33:06
别吃!寄生虫多达6000条,上海近期正大量出现,严重可致死

别吃!寄生虫多达6000条,上海近期正大量出现,严重可致死

新民周刊
2026-05-09 13:15:09
郑丽文访美惹争议,宋楚瑜惊人一问震惊众人!

郑丽文访美惹争议,宋楚瑜惊人一问震惊众人!

书画相约
2026-05-09 10:35:19
广东绝杀北京收获4大功臣!张皓嘉并非第1:他才是最大功臣

广东绝杀北京收获4大功臣!张皓嘉并非第1:他才是最大功臣

篮球快餐车
2026-05-10 01:53:44
普京时代进入倒计时,中国必须警惕俄罗斯政策突变。

普京时代进入倒计时,中国必须警惕俄罗斯政策突变。

阿七说史
2026-05-09 05:10:06
北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

北京市大兴区政府原党组成员、副区长吴浩接受纪律审查和监察调查

环球网资讯
2026-05-09 17:05:08
巩俐和替身合影:俩人长得几乎一模一样,你能分清她俩谁是谁吗?

巩俐和替身合影:俩人长得几乎一模一样,你能分清她俩谁是谁吗?

乡野小珥
2026-05-09 17:22:51
美国果然小看了郑丽文:台湾省传出大消息,特朗普要气炸!

美国果然小看了郑丽文:台湾省传出大消息,特朗普要气炸!

荆楚寰宇文枢
2026-05-08 23:06:00
3-0!3-0!孙颖莎、王曼昱淘汰日本队可夺冠,马琳加油声太大吃黄牌

3-0!3-0!孙颖莎、王曼昱淘汰日本队可夺冠,马琳加油声太大吃黄牌

曹说体育
2026-05-09 21:51:57
没耐心了!美国国务卿称:如果俄乌谈判再无进展,美国不想再“浪费时间”……

没耐心了!美国国务卿称:如果俄乌谈判再无进展,美国不想再“浪费时间”……

王爷说图表
2026-05-09 18:26:59
敢说!基恩怒批阿森纳昔日天才:他是世界上最被高估的球员

敢说!基恩怒批阿森纳昔日天才:他是世界上最被高估的球员

一隅非生
2026-05-10 03:36:46
国乒vs法国对阵出炉:王楚钦将战科顿,比赛2:30打响

国乒vs法国对阵出炉:王楚钦将战科顿,比赛2:30打响

懂球帝
2026-05-10 01:44:08
没想到,世乒赛还没结束,乒协主席王励勤竟传来另一大好消息

没想到,世乒赛还没结束,乒协主席王励勤竟传来另一大好消息

刘笤说体坛
2026-05-09 19:03:50
懵了,三星市值破万亿=腾讯+阿里巴巴+小米……还把中国大陆家电业务给停了

懵了,三星市值破万亿=腾讯+阿里巴巴+小米……还把中国大陆家电业务给停了

新浪财经
2026-05-08 15:09:54
“汉坦病毒”来势汹汹,建议:每家备好4样东西,关键时刻能救命

“汉坦病毒”来势汹汹,建议:每家备好4样东西,关键时刻能救命

路医生健康科普
2026-05-09 17:43:11
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
世乒赛战报:竞逐决赛,男团仅剩1人全胜!林诗栋0-3失利

世乒赛战报:竞逐决赛,男团仅剩1人全胜!林诗栋0-3失利

老淸医学科普
2026-05-10 04:41:50
五一假期人均消费仅570元,低于去年,还没回到2019年的603元

五一假期人均消费仅570元,低于去年,还没回到2019年的603元

六子吃凉粉
2026-05-09 12:28:56
中国“退步”最快的城市:曾与南京、上海齐名,如今却沦为三线

中国“退步”最快的城市:曾与南京、上海齐名,如今却沦为三线

长风文史
2026-05-08 13:02:57
6月1日正式施行!全国工地用工新规,明确60岁以上农民上岗标准

6月1日正式施行!全国工地用工新规,明确60岁以上农民上岗标准

丁丁鲤史纪
2026-05-08 14:50:31
2026-05-10 05:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16680文章数 514938关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
教育
家居
房产
军事航空

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

“我女儿一周不换裤子”,家长吐槽反被骂:同为女人,你清楚为啥

家居要闻

菁英人居 全能豪宅

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版