![]()
这项由奥地利科学技术研究所(IST Austria)和Red Hat AI合作完成的研究发表于2026年2月,论文编号为arXiv:2601.22813v1。想要深入了解技术细节的读者可以通过这个编号在arXiv平台查询完整论文。
在人工智能飞速发展的今天,训练一个大型语言模型就像建造一座摩天大楼,需要消耗巨大的计算资源和电力。为了让这个过程变得更加高效,研究人员一直在探索如何用更少的计算精度来完成同样的任务,就像用更轻巧的材料建造同样坚固的建筑。
此前,业界已经从16位精度逐步降低到8位,现在英伟达推出了全新的4位浮点格式NVFP4,承诺能带来2到4倍的速度提升。这就好比从使用重型卡车运货升级到使用轻便快递车,理论上应该既省油又快速。然而现实往往比理想复杂得多,现有的4位训练方法在准确性上仍然存在明显损失,就像轻便的快递车虽然快,但装载能力有限。
奥地利科学技术研究所的研究团队发现了这个问题的根源:现有方法为了保证训练过程的无偏性,采用了一种叫做"随机舍入"的技术,但这种技术大大增加了量化误差。这就像为了保证快递车不偏向某个方向,在车轮上装了随机转向装置,结果虽然保证了方向的随机性,但让车变得摇摆不定,影响了运输效果。
一、突破性的"微缩EDEN"技术
研究团队提出了一种全新的解决方案,他们称之为"微缩EDEN"(MS-EDEN)。这个名字听起来很神秘,但原理其实很巧妙。传统的随机舍入就像在每个数字上分别抛硬币决定如何处理,而MS-EDEN则把随机性转移到了更高层级的缩放因子上,就像不再对每个货物单独抛硬币,而是对整个货车的装载方式做统一的随机调整。
具体来说,NVFP4格式将数据组织成小块,每16个4位数字共享一个8位的缩放因子,再加上一个全局的32位缩放因子。MS-EDEN的创新在于,它首先对数据进行旋转变换(类似于重新排列货物的顺序),然后用精确的舍入方法处理4位数字,最后在8位缩放因子上应用随机性来保证整体的无偏性。
这种方法的效果非常显著。实验数据显示,MS-EDEN的量化误差比传统随机舍入降低了2倍以上,同时仍然保持了训练过程的无偏性。这就像找到了一种既轻便又稳定的新型快递车,既保持了速度优势,又解决了摇摆问题。
二、全面的"Quartet II"训练方案
基于MS-EDEN技术,研究团队构建了一个完整的4位训练方案,命名为"Quartet II"。这个方案像一个精心设计的工厂流水线,在前向传播和反向传播的不同阶段采用了不同的优化策略。
在前向传播阶段,Quartet II采用了一种叫做"四比六"的缩放选择技术。这个技术的原理是为每个数据块尝试两种不同的缩放因子(4.0和6.0),然后选择能够产生更小误差的那个。这就像快递公司为每批货物准备两种不同尺寸的包装盒,然后选择最合适的那个,从而最大化装载效率。
在反向传播阶段,也就是模型学习和调整参数的过程中,Quartet II全面采用MS-EDEN技术。研究团队发现,虽然这需要重新量化一些数据(类似于需要重新包装货物),但MS-EDEN的低误差特性完全弥补了这个开销,整体效果仍然比现有方法更好。
三、令人印象深刻的实验结果
研究团队在多个规模的语言模型上测试了Quartet II的效果,从3000万参数的小模型到19亿参数的大模型都有涉及。结果显示,Quartet II相比现有的4位训练方法,在验证损失上平均改善了20%以上。这意味着用同样的计算资源,能够训练出更准确的模型。
更重要的是,研究团队还在英伟达最新的Blackwell GPU上实现了完整的硬件支持,实现了相对于16位训练4.2倍的速度提升。这就像不仅设计出了更好的快递车,还为它建造了专门的高速公路,让理论上的优势真正转化为实际的性能提升。
在真实的语言模型训练任务中,研究团队使用了Nanochat训练流程,这是一个被业界广泛认可的基准测试。结果显示,Quartet II训练的模型在各项语言理解任务上都表现出色,与传统16位训练的差距进一步缩小,同时保持了显著的速度优势。
四、技术创新的深层意义
Quartet II的成功不仅仅是一个工程优化的胜利,更代表了一种全新的思维方式。传统的量化方法往往在精度和效率之间做简单的权衡,而Quartet II证明了通过巧妙的算法设计,可以在两个维度上同时取得进步。
MS-EDEN技术的核心洞察是,无偏性和低误差并不一定是矛盾的。通过将随机性从元素级别提升到块级别,可以在保证统计性质的同时显著降低噪音。这种"分层随机化"的思想可能在其他领域也有广泛的应用潜力。
研究团队还开发了专门的GPU内核来支持这些新算法,证明了学术研究和工程实现的完美结合。他们甚至提出了"后验范围对齐"等优化技术,将内存带宽开销降低了20%以上,使得整个方案在实际部署中更加可行。
五、对未来的深远影响
Quartet II的成功为AI训练的未来指明了方向。随着模型规模继续增长,计算效率将成为越来越重要的制约因素。这项研究证明了极低精度训练不仅是可行的,而且可以在不牺牲模型质量的前提下带来显著的效率提升。
对于普通用户而言,这意味着未来的AI服务可能变得更加便宜和快速。训练成本的降低最终会转化为更低的使用费用和更广泛的应用场景。同时,更高的能效也符合可持续发展的要求,有助于减少AI训练的碳足迹。
对于研究界而言,Quartet II为探索更极端的量化技术铺平了道路。如果4位训练都能取得如此好的效果,那么3位甚至2位训练是否也有可能实现?这将是一个充满挑战但极具吸引力的研究方向。
说到底,Quartet II代表了AI技术发展中的一个重要里程碑。它不仅解决了当前4位训练的技术难题,更重要的是展示了通过创新思维和精心设计,我们可以突破看似不可调和的技术权衡。这种精神将继续推动AI技术向更高效、更实用的方向发展,最终让人工智能真正成为惠及所有人的技术。
Q&A
Q1:MS-EDEN技术相比传统随机舍入有什么优势?
A:MS-EDEN将随机性从每个数字级别提升到缩放因子级别,就像从对每个货物单独抛硬币改为对整车装载方式统一调整。这样既保证了训练的无偏性,又将量化误差降低了2倍以上,解决了传统方法精度损失大的问题。
Q2:Quartet II训练方案能带来多大的性能提升?
A:Quartet II在英伟达Blackwell GPU上实现了相对16位训练4.2倍的速度提升,同时在验证损失上比现有4位训练方法平均改善20%以上。这意味着既能显著提高训练速度,又能保持更好的模型质量。
Q3:NVFP4格式训练对普通用户有什么意义?
A:NVFP4格式的成功应用将显著降低AI模型的训练成本,这最终会转化为更便宜的AI服务和更广泛的应用场景。同时更高的能效也有助于减少AI训练的环境影响,推动人工智能技术的可持续发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.