网易首页 > 网易号 > 正文 申请入驻

推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%!

更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。

换句话说,这一操作直接把参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。



(注:显存容量通常会大于Checkpoint Size)

相比以往的数据类型,MXFP4提供了极高的性价比,模型运行所需的硬件资源仅为之前的四分之一。

MXFP4有什么魔力?

在gpt-oss中,OpenAI将MXFP4量化应用于大约90%的权重,这一操作的直接动机(收益)就是让模型运行成本变得更加便宜。

将gpt-oss模型量化为MXFP4 后,大语言模型的占用内存仅为等规模BF16模型的1/4,而且生成token的速度最高可提升4倍。



如何通过改变数据类型降低模型运行成本?这里的逻辑是这样的:

模型的运行成本主要由权重存储内存带宽两个部分组成。

前者是模型参数存放和占用的空间,也就是存储它们所需要的字节数。

后者则是模型在推理时,数据读写速度和容量的限制。

数据类型的变化将直接影响权重存储和内存带宽的占用。

例如,传统模型权重通常用FP32(32位浮点数)存储,每个参数占用4字节内存。

如果用MXFP4,那么每个权重只有半字节权重存储大小是FP32的1/8,这就极大地压缩了权重数据量的大小。

这一压缩不仅降低了模型的存储空间,还能让模型在同样的带宽下完成更快地数据读取和写入,从而提高推理速度。

由此,通过改变数据类型就能实现推理成本的降本增效。

那么,MXFP4是怎么实现这一点的?

MXFP4

MXFP4的全称是微缩放4位浮点数(Micro-scaling Floating Point 4-bit),是由Open Compute Project (OCP) 定义的4位浮点数据类型。

(注:OCP是Facebook于2011年发起的超大规模数据中心合作组织,旨在降低数据中心组件成本并提高可获取性。)

在深度学习领域中,数据类型的精度和效率一直是研究者取舍的重点。

例如,传统的FP4只有四位,1位符号位(表示正负),2位指数位(决定数值的量级),1位尾数位(表示小数部分)。

这种表示方法虽然压缩了数据量,但也导致了非常有限的可表示的数值范围,它只能表示8个正数和8个负数。

相较之下,BF16(1位符号位,8位指数位和7 位尾数位)则能表示 65,536个数值,不过表示范围的增加也带来了计算成本的上升。

如果为了提高计算效率,直接把这4个BF16数值:0.0625、0.375、0.078125、0.25直接转换成FP4,那么它们会变成 0、0.5、0、0.5。

不难看出,这样的误差显然是无法接受的。

于是,为了在减少数据量的同时确保一定的精度,MXFP4通过将一组高精度数值(默认32个)乘以一个公共缩放因子(这个缩放因子是一个8位二进制指数)。这样,我们前面那4个BF16数值就会变成 1、6、1.5、4。



这样就既实现了极致的数据大小,又维持了数值间大小关系的精度。

此外,这一过程的实现还与计算硬件相关

一般规律是,每将浮点精度减半,芯片的浮点吞吐量就能翻倍。

比如,一个B200SXM模块的稠密BF16运算性能约为2.2 petaFLOPS,降到FP4(Nvidia Blackwell 芯片提供硬件加速)后,就能提升到9petaFLOPS

虽然这会在吞吐量上带来一些提升,但在推理阶段,更多FLOPS的意义主要是减少模型开始生成答案的等待时间

值得注意的是,运行MXFP4模型并不要求硬件必须原生支持FP4

用于训练gpt-oss的Nvidia H100就不支持原生FP4,不过它依然可以运行,只是无法享受该数据类型的全部优势。

低精度与计算量的取舍

事实上,MXFP4并不是新概念。早在2023年的报告中,OCP就在报告《OCP Microscaling Formats (MX) Specification Version 1.0》中详细介绍过这一数据类型。



然而,这种低精度的数据类型通常被认为是对性价比的妥协,因为精度下降会导致质量损失。损失的程度取决于具体的量化方法。

不过,已经有足够多的研究表明,将数据精度从16位降到8位,在大语言模型场景下几乎没有质量损失,这种精度已经足够支撑模型的正常工作。

事实上,一些模型开发者,例如DeepSeek已经开始直接用FP8进行训练。

此外,虽然MXFP4比标准FP4好得多,但它也有缺陷

例如,英伟达就认为这种数据类型相比FP8仍可能出现质量下降,部分原因是其缩放块大小(Scaling Block Size)为32,不够细粒化。

为此,英伟达推出了自己的微缩放数据类型NVFP4,通过将缩放块大小降至16和使用FP8缩放因子来提高质量。

这几乎等同于FP8的工作方式。只不过MXFP4是在张量内部的小块上应用缩放因子,而不是作用于整个张量,从而在数值之间实现更细的粒度。

最后,在gpt-oss上,OpenAI只使用了MXFP4。

鉴于OpenAI在AI领域上的影响力,这基本上就等于在说:

如果MXFP4对我们够用,那对你也应该够用。

[1]https://www.theregister.com/2025/08/10/openai_mxfp4/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国坑我,中国揍我,日媒:我们最后一个支柱产业如今也陷入困境

美国坑我,中国揍我,日媒:我们最后一个支柱产业如今也陷入困境

历史有些冷
2026-01-04 21:25:03
59岁王祖贤大变样!素颜脸肿眼小满脸苦相,虎背熊腰体重超149斤

59岁王祖贤大变样!素颜脸肿眼小满脸苦相,虎背熊腰体重超149斤

小咪侃娱圈
2026-01-05 09:59:14
破案了!邱彪罕见暴走摔西装要打裁判的原因找到,郭昊文是导火索

破案了!邱彪罕见暴走摔西装要打裁判的原因找到,郭昊文是导火索

后仰大风车
2026-01-05 07:15:06
郭月兰:丈夫留下1600亿,她只分到35亿,无儿女最后给了别人

郭月兰:丈夫留下1600亿,她只分到35亿,无儿女最后给了别人

徐侠客有话说
2025-07-10 10:49:17
后续!司晓迪删内容:唯独留下一条,再次更新账号,惊曝奇怪排名

后续!司晓迪删内容:唯独留下一条,再次更新账号,惊曝奇怪排名

李健政观察
2026-01-03 16:57:41
委副总统已代理总统职权,特朗普称要“管理”委内瑞拉,多国要求美释放马杜罗夫妇

委副总统已代理总统职权,特朗普称要“管理”委内瑞拉,多国要求美释放马杜罗夫妇

环球网资讯
2026-01-05 07:13:30
CBA最新排名!广东第二北京第五,上海杀入四强,山东连升三级!

CBA最新排名!广东第二北京第五,上海杀入四强,山东连升三级!

中国篮坛快讯
2026-01-05 00:01:24
就在刚刚,29家A股上市公司发布重大利好消息,看看都有哪些?

就在刚刚,29家A股上市公司发布重大利好消息,看看都有哪些?

股市皆大事
2026-01-05 08:47:14
痛心温州16岁女孩玩迷室逃脱去世,家属悲痛,商家回应,姐姐发声

痛心温州16岁女孩玩迷室逃脱去世,家属悲痛,商家回应,姐姐发声

可爱的罗
2026-01-05 12:50:56
美军能打赢解放军吗?俄媒:两军差距巨大,除兵员其他全是劣势!

美军能打赢解放军吗?俄媒:两军差距巨大,除兵员其他全是劣势!

荐史
2026-01-02 17:25:30
金正恩的神经绷得很紧,特朗普一动手,朝鲜立马发射高超音速导弹

金正恩的神经绷得很紧,特朗普一动手,朝鲜立马发射高超音速导弹

科普100克克
2026-01-05 16:51:23
特朗普估计现在很发愁,因为售台这批110亿美元的武器可能完不成

特朗普估计现在很发愁,因为售台这批110亿美元的武器可能完不成

忠于法纪
2026-01-05 21:29:15
特朗普再度警告委政府:若不配合,或进行第二次军事打击!

特朗普再度警告委政府:若不配合,或进行第二次军事打击!

财联社
2026-01-05 16:14:08
华为诞生“降价王”,从16999元跌至8799元,折叠屏跌至谷底价

华为诞生“降价王”,从16999元跌至8799元,折叠屏跌至谷底价

知心数码
2026-01-04 21:45:14
50岁老护士详解护士繁重工作流程 称张水华但凡有背景早就调岗了

50岁老护士详解护士繁重工作流程 称张水华但凡有背景早就调岗了

削桐作琴
2026-01-04 18:13:13
赵露思不尴尬吗?宝格丽900万珠宝给她戴了,却一身廉价味显难堪

赵露思不尴尬吗?宝格丽900万珠宝给她戴了,却一身廉价味显难堪

嫹笔牂牂
2025-12-23 07:09:08
严惩无良裁判,把CBA最老实教练都给逼急了,篮协再不管真晚了

严惩无良裁判,把CBA最老实教练都给逼急了,篮协再不管真晚了

宗介说体育
2026-01-05 21:29:34
中国最牛骗子,劳改犯摇身一变成空降高官,锐意改革政绩突出

中国最牛骗子,劳改犯摇身一变成空降高官,锐意改革政绩突出

史政先锋
2026-01-05 19:53:45
突发!知名影帝安圣基因吃饭被噎去世,曾与刘德华出演《墨攻》

突发!知名影帝安圣基因吃饭被噎去世,曾与刘德华出演《墨攻》

心静物娱
2026-01-05 13:49:36
杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

杨幂蓝色镂空裙照疯传!雪白肌肤若隐若现,这腰臀比太顶了?

娱乐领航家
2026-01-04 22:00:03
2026-01-05 22:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
11973文章数 176356关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

台官员称美抓捕马杜罗是对大陆的有力威慑 外交部回应

头条要闻

台官员称美抓捕马杜罗是对大陆的有力威慑 外交部回应

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

本地
亲子
家居
教育
公开课

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

亲子要闻

宝妈必学,孩子做噩梦,警惕这样的反应!

家居要闻

白色大理石 奢华现代

教育要闻

悲痛!又有几名学生跳楼!致家长:请不要再以各种名义给孩子配手机了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版