奥地利IST让大模型训练像升级游戏装备一样高效|速度|算法|实验|原理|正式版模型|奥地利ist

奥地利IST让大模型训练像升级游戏装备一样高效

2026-02-03 23:49:01　来源: 至顶AI实验室

北京举报

分享至

这项由奥地利科学技术研究所（IST Austria）和Red Hat AI合作完成的研究发表于2026年2月，论文编号为arXiv:2601.22813v1。想要深入了解技术细节的读者可以通过这个编号在arXiv平台查询完整论文。

在人工智能飞速发展的今天，训练一个大型语言模型就像建造一座摩天大楼，需要消耗巨大的计算资源和电力。为了让这个过程变得更加高效，研究人员一直在探索如何用更少的计算精度来完成同样的任务，就像用更轻巧的材料建造同样坚固的建筑。

此前，业界已经从16位精度逐步降低到8位，现在英伟达推出了全新的4位浮点格式NVFP4，承诺能带来2到4倍的速度提升。这就好比从使用重型卡车运货升级到使用轻便快递车，理论上应该既省油又快速。然而现实往往比理想复杂得多，现有的4位训练方法在准确性上仍然存在明显损失，就像轻便的快递车虽然快，但装载能力有限。

奥地利科学技术研究所的研究团队发现了这个问题的根源：现有方法为了保证训练过程的无偏性，采用了一种叫做"随机舍入"的技术，但这种技术大大增加了量化误差。这就像为了保证快递车不偏向某个方向，在车轮上装了随机转向装置，结果虽然保证了方向的随机性，但让车变得摇摆不定，影响了运输效果。

一、突破性的"微缩EDEN"技术

研究团队提出了一种全新的解决方案，他们称之为"微缩EDEN"（MS-EDEN）。这个名字听起来很神秘，但原理其实很巧妙。传统的随机舍入就像在每个数字上分别抛硬币决定如何处理，而MS-EDEN则把随机性转移到了更高层级的缩放因子上，就像不再对每个货物单独抛硬币，而是对整个货车的装载方式做统一的随机调整。

具体来说，NVFP4格式将数据组织成小块，每16个4位数字共享一个8位的缩放因子，再加上一个全局的32位缩放因子。MS-EDEN的创新在于，它首先对数据进行旋转变换（类似于重新排列货物的顺序），然后用精确的舍入方法处理4位数字，最后在8位缩放因子上应用随机性来保证整体的无偏性。

这种方法的效果非常显著。实验数据显示，MS-EDEN的量化误差比传统随机舍入降低了2倍以上，同时仍然保持了训练过程的无偏性。这就像找到了一种既轻便又稳定的新型快递车，既保持了速度优势，又解决了摇摆问题。

二、全面的"Quartet II"训练方案

基于MS-EDEN技术，研究团队构建了一个完整的4位训练方案，命名为"Quartet II"。这个方案像一个精心设计的工厂流水线，在前向传播和反向传播的不同阶段采用了不同的优化策略。

在前向传播阶段，Quartet II采用了一种叫做"四比六"的缩放选择技术。这个技术的原理是为每个数据块尝试两种不同的缩放因子（4.0和6.0），然后选择能够产生更小误差的那个。这就像快递公司为每批货物准备两种不同尺寸的包装盒，然后选择最合适的那个，从而最大化装载效率。

在反向传播阶段，也就是模型学习和调整参数的过程中，Quartet II全面采用MS-EDEN技术。研究团队发现，虽然这需要重新量化一些数据（类似于需要重新包装货物），但MS-EDEN的低误差特性完全弥补了这个开销，整体效果仍然比现有方法更好。

三、令人印象深刻的实验结果

研究团队在多个规模的语言模型上测试了Quartet II的效果，从3000万参数的小模型到19亿参数的大模型都有涉及。结果显示，Quartet II相比现有的4位训练方法，在验证损失上平均改善了20%以上。这意味着用同样的计算资源，能够训练出更准确的模型。

更重要的是，研究团队还在英伟达最新的Blackwell GPU上实现了完整的硬件支持，实现了相对于16位训练4.2倍的速度提升。这就像不仅设计出了更好的快递车，还为它建造了专门的高速公路，让理论上的优势真正转化为实际的性能提升。

在真实的语言模型训练任务中，研究团队使用了Nanochat训练流程，这是一个被业界广泛认可的基准测试。结果显示，Quartet II训练的模型在各项语言理解任务上都表现出色，与传统16位训练的差距进一步缩小，同时保持了显著的速度优势。

四、技术创新的深层意义

Quartet II的成功不仅仅是一个工程优化的胜利，更代表了一种全新的思维方式。传统的量化方法往往在精度和效率之间做简单的权衡，而Quartet II证明了通过巧妙的算法设计，可以在两个维度上同时取得进步。

MS-EDEN技术的核心洞察是，无偏性和低误差并不一定是矛盾的。通过将随机性从元素级别提升到块级别，可以在保证统计性质的同时显著降低噪音。这种"分层随机化"的思想可能在其他领域也有广泛的应用潜力。

研究团队还开发了专门的GPU内核来支持这些新算法，证明了学术研究和工程实现的完美结合。他们甚至提出了"后验范围对齐"等优化技术，将内存带宽开销降低了20%以上，使得整个方案在实际部署中更加可行。

五、对未来的深远影响

Quartet II的成功为AI训练的未来指明了方向。随着模型规模继续增长，计算效率将成为越来越重要的制约因素。这项研究证明了极低精度训练不仅是可行的，而且可以在不牺牲模型质量的前提下带来显著的效率提升。

对于普通用户而言，这意味着未来的AI服务可能变得更加便宜和快速。训练成本的降低最终会转化为更低的使用费用和更广泛的应用场景。同时，更高的能效也符合可持续发展的要求，有助于减少AI训练的碳足迹。

对于研究界而言，Quartet II为探索更极端的量化技术铺平了道路。如果4位训练都能取得如此好的效果，那么3位甚至2位训练是否也有可能实现？这将是一个充满挑战但极具吸引力的研究方向。

说到底，Quartet II代表了AI技术发展中的一个重要里程碑。它不仅解决了当前4位训练的技术难题，更重要的是展示了通过创新思维和精心设计，我们可以突破看似不可调和的技术权衡。这种精神将继续推动AI技术向更高效、更实用的方向发展，最终让人工智能真正成为惠及所有人的技术。

Q&A

Q1：MS-EDEN技术相比传统随机舍入有什么优势？

A：MS-EDEN将随机性从每个数字级别提升到缩放因子级别，就像从对每个货物单独抛硬币改为对整车装载方式统一调整。这样既保证了训练的无偏性，又将量化误差降低了2倍以上，解决了传统方法精度损失大的问题。

Q2：Quartet II训练方案能带来多大的性能提升？

A：Quartet II在英伟达Blackwell GPU上实现了相对16位训练4.2倍的速度提升，同时在验证损失上比现有4位训练方法平均改善20%以上。这意味着既能显著提高训练速度，又能保持更好的模型质量。

Q3：NVFP4格式训练对普通用户有什么意义？

A：NVFP4格式的成功应用将显著降低AI模型的训练成本，这最终会转化为更便宜的AI服务和更广泛的应用场景。同时更高的能效也有助于减少AI训练的环境影响，推动人工智能技术的可持续发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.