网易首页 > 网易号 > 正文 申请入驻

奥地利IST让大模型训练像升级游戏装备一样高效

0
分享至


这项由奥地利科学技术研究所(IST Austria)和Red Hat AI合作完成的研究发表于2026年2月,论文编号为arXiv:2601.22813v1。想要深入了解技术细节的读者可以通过这个编号在arXiv平台查询完整论文。

在人工智能飞速发展的今天,训练一个大型语言模型就像建造一座摩天大楼,需要消耗巨大的计算资源和电力。为了让这个过程变得更加高效,研究人员一直在探索如何用更少的计算精度来完成同样的任务,就像用更轻巧的材料建造同样坚固的建筑。

此前,业界已经从16位精度逐步降低到8位,现在英伟达推出了全新的4位浮点格式NVFP4,承诺能带来2到4倍的速度提升。这就好比从使用重型卡车运货升级到使用轻便快递车,理论上应该既省油又快速。然而现实往往比理想复杂得多,现有的4位训练方法在准确性上仍然存在明显损失,就像轻便的快递车虽然快,但装载能力有限。

奥地利科学技术研究所的研究团队发现了这个问题的根源:现有方法为了保证训练过程的无偏性,采用了一种叫做"随机舍入"的技术,但这种技术大大增加了量化误差。这就像为了保证快递车不偏向某个方向,在车轮上装了随机转向装置,结果虽然保证了方向的随机性,但让车变得摇摆不定,影响了运输效果。

一、突破性的"微缩EDEN"技术

研究团队提出了一种全新的解决方案,他们称之为"微缩EDEN"(MS-EDEN)。这个名字听起来很神秘,但原理其实很巧妙。传统的随机舍入就像在每个数字上分别抛硬币决定如何处理,而MS-EDEN则把随机性转移到了更高层级的缩放因子上,就像不再对每个货物单独抛硬币,而是对整个货车的装载方式做统一的随机调整。

具体来说,NVFP4格式将数据组织成小块,每16个4位数字共享一个8位的缩放因子,再加上一个全局的32位缩放因子。MS-EDEN的创新在于,它首先对数据进行旋转变换(类似于重新排列货物的顺序),然后用精确的舍入方法处理4位数字,最后在8位缩放因子上应用随机性来保证整体的无偏性。

这种方法的效果非常显著。实验数据显示,MS-EDEN的量化误差比传统随机舍入降低了2倍以上,同时仍然保持了训练过程的无偏性。这就像找到了一种既轻便又稳定的新型快递车,既保持了速度优势,又解决了摇摆问题。

二、全面的"Quartet II"训练方案

基于MS-EDEN技术,研究团队构建了一个完整的4位训练方案,命名为"Quartet II"。这个方案像一个精心设计的工厂流水线,在前向传播和反向传播的不同阶段采用了不同的优化策略。

在前向传播阶段,Quartet II采用了一种叫做"四比六"的缩放选择技术。这个技术的原理是为每个数据块尝试两种不同的缩放因子(4.0和6.0),然后选择能够产生更小误差的那个。这就像快递公司为每批货物准备两种不同尺寸的包装盒,然后选择最合适的那个,从而最大化装载效率。

在反向传播阶段,也就是模型学习和调整参数的过程中,Quartet II全面采用MS-EDEN技术。研究团队发现,虽然这需要重新量化一些数据(类似于需要重新包装货物),但MS-EDEN的低误差特性完全弥补了这个开销,整体效果仍然比现有方法更好。

三、令人印象深刻的实验结果

研究团队在多个规模的语言模型上测试了Quartet II的效果,从3000万参数的小模型到19亿参数的大模型都有涉及。结果显示,Quartet II相比现有的4位训练方法,在验证损失上平均改善了20%以上。这意味着用同样的计算资源,能够训练出更准确的模型。

更重要的是,研究团队还在英伟达最新的Blackwell GPU上实现了完整的硬件支持,实现了相对于16位训练4.2倍的速度提升。这就像不仅设计出了更好的快递车,还为它建造了专门的高速公路,让理论上的优势真正转化为实际的性能提升。

在真实的语言模型训练任务中,研究团队使用了Nanochat训练流程,这是一个被业界广泛认可的基准测试。结果显示,Quartet II训练的模型在各项语言理解任务上都表现出色,与传统16位训练的差距进一步缩小,同时保持了显著的速度优势。

四、技术创新的深层意义

Quartet II的成功不仅仅是一个工程优化的胜利,更代表了一种全新的思维方式。传统的量化方法往往在精度和效率之间做简单的权衡,而Quartet II证明了通过巧妙的算法设计,可以在两个维度上同时取得进步。

MS-EDEN技术的核心洞察是,无偏性和低误差并不一定是矛盾的。通过将随机性从元素级别提升到块级别,可以在保证统计性质的同时显著降低噪音。这种"分层随机化"的思想可能在其他领域也有广泛的应用潜力。

研究团队还开发了专门的GPU内核来支持这些新算法,证明了学术研究和工程实现的完美结合。他们甚至提出了"后验范围对齐"等优化技术,将内存带宽开销降低了20%以上,使得整个方案在实际部署中更加可行。

五、对未来的深远影响

Quartet II的成功为AI训练的未来指明了方向。随着模型规模继续增长,计算效率将成为越来越重要的制约因素。这项研究证明了极低精度训练不仅是可行的,而且可以在不牺牲模型质量的前提下带来显著的效率提升。

对于普通用户而言,这意味着未来的AI服务可能变得更加便宜和快速。训练成本的降低最终会转化为更低的使用费用和更广泛的应用场景。同时,更高的能效也符合可持续发展的要求,有助于减少AI训练的碳足迹。

对于研究界而言,Quartet II为探索更极端的量化技术铺平了道路。如果4位训练都能取得如此好的效果,那么3位甚至2位训练是否也有可能实现?这将是一个充满挑战但极具吸引力的研究方向。

说到底,Quartet II代表了AI技术发展中的一个重要里程碑。它不仅解决了当前4位训练的技术难题,更重要的是展示了通过创新思维和精心设计,我们可以突破看似不可调和的技术权衡。这种精神将继续推动AI技术向更高效、更实用的方向发展,最终让人工智能真正成为惠及所有人的技术。

Q&A

Q1:MS-EDEN技术相比传统随机舍入有什么优势?

A:MS-EDEN将随机性从每个数字级别提升到缩放因子级别,就像从对每个货物单独抛硬币改为对整车装载方式统一调整。这样既保证了训练的无偏性,又将量化误差降低了2倍以上,解决了传统方法精度损失大的问题。

Q2:Quartet II训练方案能带来多大的性能提升?

A:Quartet II在英伟达Blackwell GPU上实现了相对16位训练4.2倍的速度提升,同时在验证损失上比现有4位训练方法平均改善20%以上。这意味着既能显著提高训练速度,又能保持更好的模型质量。

Q3:NVFP4格式训练对普通用户有什么意义?

A:NVFP4格式的成功应用将显著降低AI模型的训练成本,这最终会转化为更便宜的AI服务和更广泛的应用场景。同时更高的能效也有助于减少AI训练的环境影响,推动人工智能技术的可持续发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2死3失联!这座桥为何在众目睽睽之下突然垮塌?

2死3失联!这座桥为何在众目睽睽之下突然垮塌?

民言民语
2026-02-03 08:45:05
小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

南方都市报
2026-02-03 16:20:06
大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

ETtoday星光云
2026-02-03 10:18:23
小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

互联网品牌官
2026-02-03 16:47:44
新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

我心纵横天地间
2026-02-03 22:57:23
纽约尾盘,现货黄金跌4.54%

纽约尾盘,现货黄金跌4.54%

每日经济新闻
2026-02-03 06:10:14
16GB+1TB!新机官宣:3月1日,全球首发亮相!

16GB+1TB!新机官宣:3月1日,全球首发亮相!

科技堡垒
2026-02-02 13:35:14
外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

每日经济新闻
2026-02-03 20:28:42
日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

快科技
2026-02-04 00:32:29
韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

互联网.乱侃秀
2026-02-03 10:27:19
小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

新游戏大妹子
2026-02-03 13:42:47
金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

廖保平
2026-02-03 09:05:59
中国成功研制出一款星链干扰器

中国成功研制出一款星链干扰器

跟着老李看世界
2026-02-03 00:02:33
警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

界面新闻
2026-02-03 22:38:45
一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

映射生活的身影
2026-02-03 21:27:43
再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

削桐作琴
2026-02-03 18:17:26
孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

穿透
2026-02-03 21:45:13
韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

娱乐团长
2026-02-03 15:15:49
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
成都个别领导的风险,比刘虎的要大得多

成都个别领导的风险,比刘虎的要大得多

不主流讲话
2026-02-03 15:18:01
2026-02-04 04:32:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1618文章数 158关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

教育
时尚
旅游
本地
数码

教育要闻

学霸到底怎么刷题的?

状态比10年前更好,她到底做对了什么?

旅游要闻

“景区吟诗”带来旅行体验新风潮

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

无障碍浏览 进入关怀版