网易首页 > 网易号 > 正文 申请入驻

推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%!

更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。

换句话说,这一操作直接把参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。

(注:显存容量通常会大于Checkpoint Size)

相比以往的数据类型,MXFP4提供了极高的性价比,模型运行所需的硬件资源仅为之前的四分之一。

MXFP4有什么魔力?

在gpt-oss中,OpenAI将MXFP4量化应用于大约90%的权重,这一操作的直接动机(收益)就是让模型运行成本变得更加便宜。

将gpt-oss模型量化为MXFP4 后,大语言模型的占用内存仅为等规模BF16模型的1/4,而且生成token的速度最高可提升4倍。

如何通过改变数据类型降低模型运行成本?这里的逻辑是这样的:

模型的运行成本主要由权重存储内存带宽两个部分组成。

前者是模型参数存放和占用的空间,也就是存储它们所需要的字节数。

后者则是模型在推理时,数据读写速度和容量的限制。

数据类型的变化将直接影响权重存储和内存带宽的占用。

例如,传统模型权重通常用FP32(32位浮点数)存储,每个参数占用4字节内存。

如果用MXFP4,那么每个权重只有半字节权重存储大小是FP32的1/8,这就极大地压缩了权重数据量的大小。

这一压缩不仅降低了模型的存储空间,还能让模型在同样的带宽下完成更快地数据读取和写入,从而提高推理速度。

由此,通过改变数据类型就能实现推理成本的降本增效。

那么,MXFP4是怎么实现这一点的?

MXFP4

MXFP4的全称是微缩放4位浮点数(Micro-scaling Floating Point 4-bit),是由Open Compute Project (OCP) 定义的4位浮点数据类型。

(注:OCP是Facebook于2011年发起的超大规模数据中心合作组织,旨在降低数据中心组件成本并提高可获取性。)

在深度学习领域中,数据类型的精度和效率一直是研究者取舍的重点。

例如,传统的FP4只有四位,1位符号位(表示正负),2位指数位(决定数值的量级),1位尾数位(表示小数部分)。

这种表示方法虽然压缩了数据量,但也导致了非常有限的可表示的数值范围,它只能表示8个正数和8个负数。

相较之下,BF16(1位符号位,8位指数位和7 位尾数位)则能表示 65,536个数值,不过表示范围的增加也带来了计算成本的上升。

如果为了提高计算效率,直接把这4个BF16数值:0.0625、0.375、0.078125、0.25直接转换成FP4,那么它们会变成 0、0.5、0、0.5。

不难看出,这样的误差显然是无法接受的。

于是,为了在减少数据量的同时确保一定的精度,MXFP4通过将一组高精度数值(默认32个)乘以一个公共缩放因子(这个缩放因子是一个8位二进制指数)。这样,我们前面那4个BF16数值就会变成 1、6、1.5、4。

这样就既实现了极致的数据大小,又维持了数值间大小关系的精度。

此外,这一过程的实现还与计算硬件相关

一般规律是,每将浮点精度减半,芯片的浮点吞吐量就能翻倍。

比如,一个B200SXM模块的稠密BF16运算性能约为2.2 petaFLOPS,降到FP4(Nvidia Blackwell 芯片提供硬件加速)后,就能提升到9petaFLOPS

虽然这会在吞吐量上带来一些提升,但在推理阶段,更多FLOPS的意义主要是减少模型开始生成答案的等待时间

值得注意的是,运行MXFP4模型并不要求硬件必须原生支持FP4

用于训练gpt-oss的Nvidia H100就不支持原生FP4,不过它依然可以运行,只是无法享受该数据类型的全部优势。

低精度与计算量的取舍

事实上,MXFP4并不是新概念。早在2023年的报告中,OCP就在报告《OCP Microscaling Formats (MX) Specification Version 1.0》中详细介绍过这一数据类型。

然而,这种低精度的数据类型通常被认为是对性价比的妥协,因为精度下降会导致质量损失。损失的程度取决于具体的量化方法。

不过,已经有足够多的研究表明,将数据精度从16位降到8位,在大语言模型场景下几乎没有质量损失,这种精度已经足够支撑模型的正常工作。

事实上,一些模型开发者,例如DeepSeek已经开始直接用FP8进行训练。

此外,虽然MXFP4比标准FP4好得多,但它也有缺陷

例如,英伟达就认为这种数据类型相比FP8仍可能出现质量下降,部分原因是其缩放块大小(Scaling Block Size)为32,不够细粒化。

为此,英伟达推出了自己的微缩放数据类型NVFP4,通过将缩放块大小降至16和使用FP8缩放因子来提高质量。

这几乎等同于FP8的工作方式。只不过MXFP4是在张量内部的小块上应用缩放因子,而不是作用于整个张量,从而在数值之间实现更细的粒度。

最后,在gpt-oss上,OpenAI只使用了MXFP4。

鉴于OpenAI在AI领域上的影响力,这基本上就等于在说:

如果MXFP4对我们够用,那对你也应该够用。

[1]https://www.theregister.com/2025/08/10/openai_mxfp4/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《权游》龙妈自嘲:我还演过这些翻车大片

《权游》龙妈自嘲:我还演过这些翻车大片

时光慢旅人
2026-06-02 01:18:48
中方严肃定性,16国加入联合军团围剿俄,日本也已经介入战斗了!

中方严肃定性,16国加入联合军团围剿俄,日本也已经介入战斗了!

墨印斋
2026-06-03 00:52:19
学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水!清华一年毕业3000多博士,比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪
2026-06-02 22:12:58
季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

念洲
2026-06-02 19:18:06
46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

牛油果生活观
2026-06-02 19:09:43
“宿迁阿斗”,国补都扶不起京东?

“宿迁阿斗”,国补都扶不起京东?

七使2022
2026-06-02 16:21:50
女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

酷侃体坛
2026-06-02 09:09:51
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
悲催!江苏一工厂突然停产放假1个月,员工哭诉国际形势不容乐观

悲催!江苏一工厂突然停产放假1个月,员工哭诉国际形势不容乐观

火山詩话
2026-06-02 08:34:49
收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

奇思妙想草叶君
2026-06-02 22:41:36
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

大风新闻
2026-06-02 12:15:18
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

亢奋女主硬刚导演:我是OnlyFans模特,裸戏别想删!

自愈小日子
2026-06-02 00:21:55
诺贝尔经济学奖得主克鲁格曼:对中国经济的评估

诺贝尔经济学奖得主克鲁格曼:对中国经济的评估

生命可以承受之轻
2026-06-02 15:57:17
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

侧身凌空斩
2026-06-02 23:15:57
“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻
2026-06-02 19:35:11
铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

花小猫的美食日常
2026-06-02 18:20:46
2026-06-03 03:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
时尚
旅游
数码
公开课

本地新闻

用剪纸的方式,打开江苏扬州

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

旅游要闻

北京位列全球数字旅游引领型城市榜首

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版