网易首页 > 网易号 > 正文 申请入驻

华为昇腾推出高性能INT8量化方案,更好适配DeepSeek

0
分享至

(文/万肇生 编辑/张广凯)

近日,华为公开了昇腾服务器上部署DeepSeek V3/R1推理的最佳实践,并介绍了一系列创新技术。

其中,华为在降低计算资源需求方面,创新提出了昇腾亲和的低比特量化解决方案OptiQuant,最终实现了INT8量化模式与FP8的模型推理精度持平。

由于DeepSeek V3/R1模型是基于英伟达生态训练,并推荐使用FP8精度推理,而国产芯片普遍没有原生支持FP8精度,导致国产芯片对DeepSeek的适配不佳。华为昇腾的上述研究应该就是为了解决这一问题。

通常情况下,在模型推理阶段,进行量化(如FP8量化为INT8)可以显著降低模型对硬件的存储需求和计算复杂度,但也会造成模型推理精度的损失以及逻辑错误等问题。因此如何保持推理精度,是低比特量化满足不同平台部署需求时的前提。

据华为介绍,基于BF16的DeepSeek需要1.3TB的显存空间,同时导致极大的算力和跨机通信开销。而校准集的泛化性缺失导致了在很多任务上难以达到与原有模型相近的精度水平,甚至在某些场景下精度下降十分严重。同时,还要考虑如何设计昇腾亲和的量化算法,以发挥硬件性能。

针对上述问题,华为提出了OptiQuant量化框架,一种高性能保精度量化方案,设计了层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法。除了支持业界主流量化算法功能之外,它还新增支持三个功能:接入自定义量化算法和数值类型,可以将多种量化算法的自由组合搭配使用;支持业内主流评测数据集和用户自定义的数据校准集;支持数据并行和流水并行,针对不同大小的大语言模型实现精度验证性能加速。

OptiQuant框架主要由以下几个模块组成:

量化类型和数值类型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等数据类型,支持业界的Qserve,HQQ,LUT等量化方法,在此基础上提出了可学习截断和量化参数优化等算法,进一步减少了量化误差。 多样化测试数据集和用户自定义校准集:多样化测试数据集和用户自定义校准集:OptiQuant支持了判断题,问答题,代码题和数学题等多种测试类别,语种上支持了十种常见语言。此外,OptiQuant支持用户自定义校准集,提升模型量化过程中的泛化性。 量化权重生成:OptiQuant提出了自适应层间混精算法,并且根据对应的量化配置生成对应的权重参数,通过去冗余技术减少参数保存的参数量;OptiQuant进一步提出了FlexSQ等算法,在数据校准过程中,对大模型激活异常值进行了平滑处理,有助于对激活做低比特量化。

最终,基于Atlas 800I A2服务器的精度测试实验结果显示,对于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,实现了推理精度与FP8-GPU持平。

华为表示,在DeepSeek R1/V3大模型推理场景中,实现了INT8量化模式与FP8的模型推理精度持平,而且进一步发挥了华为Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相关代码也将逐步开源。

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金价上涨的第一批受害者出现了。

金价上涨的第一批受害者出现了。

爱吃糖的猫cat
2026-01-25 10:28:59
4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

罪案洞察者
2025-10-13 11:17:44
穆里尼奥:即便我们赢了皇马却被淘汰,我也依然会感到高兴

穆里尼奥:即便我们赢了皇马却被淘汰,我也依然会感到高兴

懂球帝
2026-01-29 08:05:12
震惊!网传河南某街道惊现“无人乞讨收款码”,称捐款者发大财…

震惊!网传河南某街道惊现“无人乞讨收款码”,称捐款者发大财…

火山诗话
2026-01-28 08:42:09
她是八十年代知名女星,嫁与军委副主席之子,离婚后生活何如?

她是八十年代知名女星,嫁与军委副主席之子,离婚后生活何如?

老杉说历史
2026-01-28 18:34:10
阿门拒投一战遭休媒狂批:4米无人不敢投 可作交易筹码 绝非球星

阿门拒投一战遭休媒狂批:4米无人不敢投 可作交易筹码 绝非球星

颜小白的篮球梦
2026-01-29 13:34:35
德丙地图:邵佳一曾效力的三支德国球队如今都在第三级联赛

德丙地图:邵佳一曾效力的三支德国球队如今都在第三级联赛

图述数说
2026-01-28 20:42:28
11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

11年恩爱抵不过残酷现实,32岁昆凌青春正盛,奔50周杰伦年老力衰

小熊侃史
2026-01-29 07:20:07
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
他奉命清剿红军,见阵地炊烟令全军做饭,一饭换后半生平安

他奉命清剿红军,见阵地炊烟令全军做饭,一饭换后半生平安

磊子讲史
2026-01-28 11:49:14
中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

阿龙聊军事
2026-01-18 20:27:20
具俊晔放弃大S遗产,更多内幕细节被扒,原来小玥儿北京学校已定

具俊晔放弃大S遗产,更多内幕细节被扒,原来小玥儿北京学校已定

科学发掘
2026-01-29 02:43:43
王健林剩100亿了,人都瘦得脱相了,怎么王思聪还照样乱花钱啊?

王健林剩100亿了,人都瘦得脱相了,怎么王思聪还照样乱花钱啊?

小光侃娱乐
2025-12-20 14:35:06
扫地出门!皇马批准两大攻击手有望火速离队!1.3亿“顶星”来投

扫地出门!皇马批准两大攻击手有望火速离队!1.3亿“顶星”来投

头狼追球
2026-01-29 10:35:41
李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

史海残云
2025-12-23 11:22:17
重磅:我国资源枯竭城市名单出炉,快看看有没有你家?

重磅:我国资源枯竭城市名单出炉,快看看有没有你家?

慧翔百科
2026-01-29 12:05:48
中国闹了个乌龙,沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

中国闹了个乌龙,沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

来科点谱
2026-01-27 08:59:39
不要再随意猜测杨兰兰的身份了,释放的信号很明显了

不要再随意猜测杨兰兰的身份了,释放的信号很明显了

李昕言温度空间
2025-08-20 15:01:53
CBA崩了!转账支付全停摆,百万澳人受影响,家长急坏:孩子没钱买饭

CBA崩了!转账支付全停摆,百万澳人受影响,家长急坏:孩子没钱买饭

澳洲红领巾
2026-01-29 11:10:59
巨星光环没了,代言合同丢了,场均22+6也没用,才25岁恐就此沉沦

巨星光环没了,代言合同丢了,场均22+6也没用,才25岁恐就此沉沦

大卫的篮球故事
2026-01-29 16:29:09
2026-01-29 17:12:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
133425文章数 1849763关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

家居
旅游
亲子
艺术
军事航空

家居要闻

极简轻奢 家的无限可能

旅游要闻

投资30亿,一年收入500万,玉龙雪山观光火车关停的蛛丝马迹

亲子要闻

一个现象:县城里的孕妇越来越少了

艺术要闻

梵高全集(高清350张)震撼……

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版