网易首页 > 网易号 > 正文 申请入驻

华为 vs 英伟达,不同硬件和推理引擎模型输出的精度差异

0
分享至


大家好,我是Ai学习的老章

不同硬件(如NVIDIA GPU, 华为Ascend NPU)和不同推理框架(如PyTorch, vLLM, MindIE)上,对同一模型相同输入进行推理得到不同结果:

  1. 浮点数计算的非确定性现代处理器为追求极致性能,广泛采用并行计算与融合运算(FMA),导致浮点运算顺序不固定由于浮点数运算不满足严格的结合律(a+b)+c ≠ a+(b+c),不同的计算顺序会导致微小的舍入误差累积,最终造成结果差异。

  2. 算子实现的差异不同的硬件平台和推理框架拥有各自高度优化的算子库。

  • 即使数学公式相同,不同 kernel 的实现(如矩阵乘的分块大小、是否使用 shared memory、是否融合 layernorm)都会导致数值路径差异。

  • 硬件层面:NVIDIA GPU依赖cuBLAS/cuDNN,华为Ascend NPU依赖CANN。它们的底层数学实现、优化策略和精度处理存在差异。

  • 框架层面:vLLM、MindIE等框架会实现自定义的高性能算子(如PagedAttention),其算法逻辑和数值稳定性可能与PyTorch的原生算子不同,从而引入计算路径上的差异。

解码策略的敏感性即使计算上的差异极其微小,解码过程也会将其放大。

  • 示例:logits_A = 10.00, logits_B = 10.01 → softmax 后 P(A)≈49.9%, P(B)≈50.1% → argmax 选 B;若误差使 logits_A=10.012,则 argmax 可能选 A。

  • **采样解码 (temperature > 0)**:微小的logits差异会改变整体概率分布,导致采样到完全不同的token,从而放大不确定性。

  • **贪心解码 (temperature = 0)**:即使使用贪心解码,当两个token的logits值非常接近时,微小的计算误差足以改变它们的排序,使得argmax操作选择不同的token。

  • 一旦在某个生成步骤选择了不同的token,它将作为后续步骤的输入,引发“蝴蝶效应”,导致最终生成的序列产生巨大差异。

调试办法:

  1. 相同模型在不同环境的表现有极大的差别如何确认?

    1. logprobs = true

    2. Whether to return log probabilities of the output tokens or not. If true, returns the log probabilities of each output token returned in the content of message.

    1. 使用相同的模型权重和模型精度,不使用量化或使用相同的量化权重

    2. 使用贪心解码(temperature = 0 )

    3. 使用固定的随机种子

    4. 关闭 prefix-cache、NTP 等可能影响推理精度的优化选项

    5. 【极大影响性能】禁用并行计算非确定性:PyTorch 中设置torch.use_deterministic_algorithms(True)

    6. 使用相同的 Prompt,并确保 Chat Template 渲染后的 Tokens 完全匹配

    7. 开启输出 logits 分布(https://platform.openai.com/docs/api-reference/chat/create_create-logprobs)

    8. 检查 Token 输出的 logprobs 的差异

  2. 如何进行算子级差异检查?

  • L2 相对误差:||A - B||₂ / ||A||₂

  • 余弦相似度:cos_sim = (A·B) / (||A|| * ||B||)

  1. 修改模型前向函数,逐层保存隐藏状态(hidden states);

  2. 在两个平台分别运行,保存每层输出张量;

  3. 计算每层输出的相对误差余弦相似度

  4. 定位误差突增的层(如相似度从 0.9999 骤降至 0.99),然后具体定位问题算子所在。

如何对模型进行 Benchmark 确定统计学意义的差异评估?

  1. 使用 evalscope/lm-eval/opencompass 等评测框架在常见的评测数据集上从统计学角度分析精度差异

  2. 推荐用 gsm8k、ceval、mmlu_redux、livebench

  3. 理论来说,应该进行多轮评测后,从统计学角度判断差异是否显著。

  4. 实际来说,相同模型的评测分数分布应该在相对 3% - 5% 以内就可以接受。

解决办法:

  1. 使用贪心解码(仅验证问题的时候使用,多数场景不推荐使用贪心解码)

  2. 确保使用相同的模型精度(比如 bfloat16和float16 就有较大区别)

  3. 更换硬件、推理框架后,重新进行提示词调优。

延伸问题:

  1. 量化后的模型一定就比量化前的模型效果差么?

    1. 量化也可以视为一种误差,加入误差有时反而会让模型在某些场景下的效果变好。

    2. 这是因为量化引入的噪声有时可以视为一种正则化的作用,类似于 Dropout,可以打破模型的一些过拟合特征(一个FP16的权重0.800001和0.800002在量化后可能都变成了同一个INT8值102,对精度的“扰动”打断了模型学到的一些“脆弱”或“过度拟合”的特征。)

  2. 大模型是天然这么不稳定的么?

    1. 对,大模型本身就是不稳定输出的,而且实践中很少使用贪心解码,也就是 temperature 设置为 > 0,本身有极大的输出随机性。

    2. 这也代表着所有的评测结果仅有统计学意义,就和相同的卷子人不会考相同分数一样。

  3. 效果不一致是否一定是硬件或算子差异?

    1. 不一定,很多时候是推理框架引入的 Bug,需要具体问题具体定位。

Author: ninehills Link and comments: https://github.com/ninehills/blog/issues/137

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

每日经济新闻
2026-01-31 00:00:09
新款瑜伽裤太透明,把lululemon股价都干跌了!

新款瑜伽裤太透明,把lululemon股价都干跌了!

新欧洲
2026-01-31 19:31:37
四年暴跌1800亿!从千元一粒到无人问津,“国宝级”神药崩盘了?

四年暴跌1800亿!从千元一粒到无人问津,“国宝级”神药崩盘了?

顾史
2025-12-19 19:06:53
全不反华了?9国高层排队赴京,中美一起享用晚宴,欧盟突然抱怨

全不反华了?9国高层排队赴京,中美一起享用晚宴,欧盟突然抱怨

爱下厨的阿酾
2026-02-01 05:44:42
6个习惯降低全身炎症让你养出健康长寿体质

6个习惯降低全身炎症让你养出健康长寿体质

吃练双修指南
2026-01-26 14:00:09
妻子举报厦门大学博士生丈夫:约P、知三当三、传播HPV(附PPT)

妻子举报厦门大学博士生丈夫:约P、知三当三、传播HPV(附PPT)

吃瓜体
2026-01-31 12:09:35
发现一个奇怪的现象:村里凡是大学毕业的子女,过年回家都很安静

发现一个奇怪的现象:村里凡是大学毕业的子女,过年回家都很安静

洪生鹏
2026-02-01 13:31:38
2005年古月离奇倒在桑拿房,李讷曾抱着他痛哭喊爸,叶帅那个红圈,竟画出了他27年“借来的人生”

2005年古月离奇倒在桑拿房,李讷曾抱着他痛哭喊爸,叶帅那个红圈,竟画出了他27年“借来的人生”

历史回忆室
2026-01-21 17:47:16
这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

青青子衿
2026-02-01 16:40:36
禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

贵圈真乱
2026-02-01 10:01:34
美伊大战在即,俄紧急送米-28援伊,中国买不到的杀器为啥给伊朗

美伊大战在即,俄紧急送米-28援伊,中国买不到的杀器为啥给伊朗

爱吃醋的猫咪
2026-02-01 19:37:17
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
赵恒多出演蒋介石,因扮演太像轰动台湾,连林青霞都找他合影

赵恒多出演蒋介石,因扮演太像轰动台湾,连林青霞都找他合影

史之铭
2026-01-26 21:12:54
成功了!俄罗斯最新战况!

成功了!俄罗斯最新战况!

达文西看世界
2026-01-30 14:59:15
这位老阿姨把皮草穿出了温柔又有高级感的氛围

这位老阿姨把皮草穿出了温柔又有高级感的氛围

牛弹琴123456
2026-01-19 12:10:38
92年廖汉生以82岁高龄再次申请退休,没想到中央依然回复:不同意

92年廖汉生以82岁高龄再次申请退休,没想到中央依然回复:不同意

思雨忆史录
2026-01-04 09:12:39
湖南省管干部任前公示:多名邵阳籍干部拟进一步使用

湖南省管干部任前公示:多名邵阳籍干部拟进一步使用

时刻
2026-01-31 00:10:09
中国平陆运河收尾,俄罗斯直呼“等到”,越南却坐不住了

中国平陆运河收尾,俄罗斯直呼“等到”,越南却坐不住了

他想要很多很多的梦
2026-02-01 16:58:07
小米SU7 Ultra月销量跌至45辆

小米SU7 Ultra月销量跌至45辆

21世纪经济报道
2026-01-31 18:33:35
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
2026-02-01 20:12:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3245文章数 11083关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
教育
数码
亲子
时尚

细节直逼《GTA6》!《三男一狗》超大mod重塑洛圣都

教育要闻

批评高中语文,不教逻辑,压根没批到点上

数码要闻

荣耀朱臣才介绍今年笔电策略,称在核显和AI应用的提升力气最大

亲子要闻

我发现一个暖心真相:春节带娃出游,竟是闹中养静的好契机

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

无障碍浏览 进入关怀版