网易首页 > 网易号 > 正文 申请入驻

华为 vs 英伟达,不同硬件和推理引擎模型输出的精度差异

0
分享至


大家好,我是Ai学习的老章

不同硬件(如NVIDIA GPU, 华为Ascend NPU)和不同推理框架(如PyTorch, vLLM, MindIE)上,对同一模型相同输入进行推理得到不同结果:

  1. 浮点数计算的非确定性现代处理器为追求极致性能,广泛采用并行计算与融合运算(FMA),导致浮点运算顺序不固定由于浮点数运算不满足严格的结合律(a+b)+c ≠ a+(b+c),不同的计算顺序会导致微小的舍入误差累积,最终造成结果差异。

  2. 算子实现的差异不同的硬件平台和推理框架拥有各自高度优化的算子库。

  • 即使数学公式相同,不同 kernel 的实现(如矩阵乘的分块大小、是否使用 shared memory、是否融合 layernorm)都会导致数值路径差异。

  • 硬件层面:NVIDIA GPU依赖cuBLAS/cuDNN,华为Ascend NPU依赖CANN。它们的底层数学实现、优化策略和精度处理存在差异。

  • 框架层面:vLLM、MindIE等框架会实现自定义的高性能算子(如PagedAttention),其算法逻辑和数值稳定性可能与PyTorch的原生算子不同,从而引入计算路径上的差异。

解码策略的敏感性即使计算上的差异极其微小,解码过程也会将其放大。

  • 示例:logits_A = 10.00, logits_B = 10.01 → softmax 后 P(A)≈49.9%, P(B)≈50.1% → argmax 选 B;若误差使 logits_A=10.012,则 argmax 可能选 A。

  • **采样解码 (temperature > 0)**:微小的logits差异会改变整体概率分布,导致采样到完全不同的token,从而放大不确定性。

  • **贪心解码 (temperature = 0)**:即使使用贪心解码,当两个token的logits值非常接近时,微小的计算误差足以改变它们的排序,使得argmax操作选择不同的token。

  • 一旦在某个生成步骤选择了不同的token,它将作为后续步骤的输入,引发“蝴蝶效应”,导致最终生成的序列产生巨大差异。

调试办法:

  1. 相同模型在不同环境的表现有极大的差别如何确认?

    1. logprobs = true

    2. Whether to return log probabilities of the output tokens or not. If true, returns the log probabilities of each output token returned in the content of message.

    1. 使用相同的模型权重和模型精度,不使用量化或使用相同的量化权重

    2. 使用贪心解码(temperature = 0 )

    3. 使用固定的随机种子

    4. 关闭 prefix-cache、NTP 等可能影响推理精度的优化选项

    5. 【极大影响性能】禁用并行计算非确定性:PyTorch 中设置torch.use_deterministic_algorithms(True)

    6. 使用相同的 Prompt,并确保 Chat Template 渲染后的 Tokens 完全匹配

    7. 开启输出 logits 分布(https://platform.openai.com/docs/api-reference/chat/create_create-logprobs)

    8. 检查 Token 输出的 logprobs 的差异

  2. 如何进行算子级差异检查?

  • L2 相对误差:||A - B||₂ / ||A||₂

  • 余弦相似度:cos_sim = (A·B) / (||A|| * ||B||)

  1. 修改模型前向函数,逐层保存隐藏状态(hidden states);

  2. 在两个平台分别运行,保存每层输出张量;

  3. 计算每层输出的相对误差余弦相似度

  4. 定位误差突增的层(如相似度从 0.9999 骤降至 0.99),然后具体定位问题算子所在。

如何对模型进行 Benchmark 确定统计学意义的差异评估?

  1. 使用 evalscope/lm-eval/opencompass 等评测框架在常见的评测数据集上从统计学角度分析精度差异

  2. 推荐用 gsm8k、ceval、mmlu_redux、livebench

  3. 理论来说,应该进行多轮评测后,从统计学角度判断差异是否显著。

  4. 实际来说,相同模型的评测分数分布应该在相对 3% - 5% 以内就可以接受。

解决办法:

  1. 使用贪心解码(仅验证问题的时候使用,多数场景不推荐使用贪心解码)

  2. 确保使用相同的模型精度(比如 bfloat16和float16 就有较大区别)

  3. 更换硬件、推理框架后,重新进行提示词调优。

延伸问题:

  1. 量化后的模型一定就比量化前的模型效果差么?

    1. 量化也可以视为一种误差,加入误差有时反而会让模型在某些场景下的效果变好。

    2. 这是因为量化引入的噪声有时可以视为一种正则化的作用,类似于 Dropout,可以打破模型的一些过拟合特征(一个FP16的权重0.800001和0.800002在量化后可能都变成了同一个INT8值102,对精度的“扰动”打断了模型学到的一些“脆弱”或“过度拟合”的特征。)

  2. 大模型是天然这么不稳定的么?

    1. 对,大模型本身就是不稳定输出的,而且实践中很少使用贪心解码,也就是 temperature 设置为 > 0,本身有极大的输出随机性。

    2. 这也代表着所有的评测结果仅有统计学意义,就和相同的卷子人不会考相同分数一样。

  3. 效果不一致是否一定是硬件或算子差异?

    1. 不一定,很多时候是推理框架引入的 Bug,需要具体问题具体定位。

Author: ninehills Link and comments: https://github.com/ninehills/blog/issues/137

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
假球是怎么踢出来的?揭秘前国足主教练李铁从球王到囚徒堕落内幕

假球是怎么踢出来的?揭秘前国足主教练李铁从球王到囚徒堕落内幕

易玄
2025-11-03 11:53:46
三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

封面新闻
2025-11-02 12:57:02
马来西亚一小学生吊死在校内厕所隔间,事发前告诉姐姐自己被恐吓

马来西亚一小学生吊死在校内厕所隔间,事发前告诉姐姐自己被恐吓

潇湘晨报
2025-11-04 10:19:11
全红婵正式复出,击败陈芋汐,夺得本届全运会首金,或重返国家队

全红婵正式复出,击败陈芋汐,夺得本届全运会首金,或重返国家队

懂球社
2025-11-03 10:56:03
澄清!杨瀚森女友被质疑学历低,晒本科证书回应:我才不是大专妹

澄清!杨瀚森女友被质疑学历低,晒本科证书回应:我才不是大专妹

林小湜体育频道
2025-11-03 20:09:26
石榴立大功!新发现:石榴竟能在36小时清除50%的肠道垃圾

石榴立大功!新发现:石榴竟能在36小时清除50%的肠道垃圾

原来仙女不讲理
2025-11-03 22:41:50
火箭实力榜飙升至第4!进攻效率联盟第一:三分命中率45.4%创纪录

火箭实力榜飙升至第4!进攻效率联盟第一:三分命中率45.4%创纪录

罗说NBA
2025-11-04 07:24:04
没悬念?哈兰德只需在16轮进2球,即可打破英超百球最快纪录

没悬念?哈兰德只需在16轮进2球,即可打破英超百球最快纪录

懂球帝
2025-11-04 01:36:06
00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

00年空姐女神!超模身材+明星脸,这身材颜值真的绝了,你喜欢吗

素然追光
2025-10-17 02:45:03
哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

陈意小可爱
2025-10-11 15:05:05
炸了,印度发射4吨多通信卫星,创本土纪录,这技术到底有多牛?

炸了,印度发射4吨多通信卫星,创本土纪录,这技术到底有多牛?

沧海旅行家
2025-11-03 17:10:08
130亿美元估值!博裕投资拿下星巴克中国至多60%股权,双方成立合资公司

130亿美元估值!博裕投资拿下星巴克中国至多60%股权,双方成立合资公司

每日经济新闻
2025-11-04 06:36:30
炸锅!C罗说出心里话:梅西绝对没我强!曾自称世界第一第二第三

炸锅!C罗说出心里话:梅西绝对没我强!曾自称世界第一第二第三

念洲
2025-11-04 08:33:07
医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

柚妈充电屋
2025-11-01 17:59:04
60亿日本动画内地定档,评分8.8,中国观众将助其超越《哪吒2》

60亿日本动画内地定档,评分8.8,中国观众将助其超越《哪吒2》

影视高原说
2025-11-03 18:56:47
“立冬4不吃,病就不找来!”11月7立冬,哪4不吃?应时节乐过冬

“立冬4不吃,病就不找来!”11月7立冬,哪4不吃?应时节乐过冬

爱生活的陶哥
2025-11-03 10:08:47
利润暴跌99%!单季亏损79亿,昔日“中产神车”也要扛不住了?

利润暴跌99%!单季亏损79亿,昔日“中产神车”也要扛不住了?

财经八卦
2025-11-02 21:17:41
我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

AI范儿
2025-11-03 19:12:19
荷兰停止向中国安世晶圆供货,德国态度180度转变,令全球吃惊

荷兰停止向中国安世晶圆供货,德国态度180度转变,令全球吃惊

张鴘喜欢软软糯糯
2025-11-03 10:56:11
海港每次夺冠都有一个大腿! 以前是胡尔克 奥斯卡 武磊 今年是谁

海港每次夺冠都有一个大腿! 以前是胡尔克 奥斯卡 武磊 今年是谁

80后体育大蜀黍
2025-11-03 22:27:56
2025-11-04 13:08:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3184文章数 11064关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

白所成等5人被判死刑:赌诈资金290亿 致6名中国人死亡

头条要闻

白所成等5人被判死刑:赌诈资金290亿 致6名中国人死亡

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

《繁花》录音事件完整版长达43分钟

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

上汽旗舰智己LS9首发评测 可能是最好开的9系SUV

态度原创

旅游
艺术
本地
游戏
健康

旅游要闻

美旅游协会警告:若“停摆”至感恩节假期旅行季,将对全美各州社区造成灾难性经济后果

艺术要闻

翁帆受聘,任清华大学建筑学院讲师

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

《暗黑破坏神4》国服定档12月12日!11月7日开测

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版