网易首页 > 网易号 > 正文 申请入驻

AI 行业需要 315:「山寨版大模型」是常态

0
分享至


说个鬼故事: 你花钱用的大模型,可能是山寨版 这里的山寨,指的是: 挂着同样名称,性能明显不达标模型

晚上群里看了个报告:

大致意思是:有 12 家 API 服务商在提供 K2,但和官方 API 的相似度各不相同,低至 48.93%


不同服务商的「官方实现相似度」

这里表达下观点:

  • API 偷手是个很严重的问题,也很普遍

  • • 无论是官方,还是第三方,都存在这个问题(比如很多时候,我们会说 GPT 变笨了)

  • • 我非常赞同这个比较方法,应该做成一个 Benchmark

  • • 这个报告也有一些局限性,指标会让人误解

下面,我分别来说

模型偷手,很普遍

先说个年初的事

DeepSeek-R1 发布后,各种平台都说自己接入 671B 满血版

但... 671B,真的是满血吗?不见得

模型除了尺寸之外,还有别的属性,比如精度、推理长度...非常多

比如 DeepSeek 官方开源的 671B 为例:默认 FP8 精度
而平台可以为了省蒜粒,可以使用量化版,比如 INT4 精度,这也可以称为 671B,没毛病

很显然:精度越低,模型表现越差
但用户完全不知道,看到有就用了
同一个问题,问三家平台的 DeepSeek,答案完全不一样

这就是典型的黑箱操作:

正如 1 可以是 ∅,满血也能阉割

而且不只是第三方的问题。官方 API 也会出现:

  • • 为了降本增效调整推理参数

  • • 为了提升速度牺牲精度

  • • 为了负载均衡降低资源分配

用户感知就是:这模型怎么变笨了 是吧,OpenAI?
说回测试

这份来自 MoonShot 的测试,做了一件事:

比较第三方平台,与官方的响应差异

开源了 50% 的测试数据,服务商可以自己跑,用户也可以自己测


测试的内容

我觉得吧,这个方法应该做成 Benchmark
不只是 K2,各个模型都可以对照测试
让服务商没法糊弄,让用户有选择依据

报告的局限性

说实话,这份报告也有局限性
比如「相似度」这个指标,还可以优化

看数据:

某个服务商成功调用 1445 次,官方 1286 次

明显不比官方差,但相似度只有 88.05 %(显得很差,这很有问题)


这个报告...其第一遍,其实没看明白

要知道:对于同样的模型,官方提供的 API 也不一定是最好的
(虽然大多数情况下并不会)

举个例子:官方设定的推理是 100 个 tokens,但第三方给了 1000,第三方就会好

所以,更合理的指标应该是:

  • • 准确率:该调用的时候调了吗

  • • 精确率:调用的都对吗

  • • F1-Score:综合评估

  • • 直接以官方为 100 分基准

最后说两句

这个问题的本质,是信息不对称
对于大模型的消费者,无论是用 AI 产品的,还是用 API 的
你只知道模型的名字,并不知道用的什么精度,怎么推理的之类

这些东西,服务商也不会主动说
性能打折,用户只会觉得是 prompt 没写好
反正死无对证,又能咋地

AI 行业,需要自己的 315 花钱用模型,得知道用的啥

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
32个“完美男人”的骗局:为离婚女人“定制”买房陷阱,涉案金额达几千万

32个“完美男人”的骗局:为离婚女人“定制”买房陷阱,涉案金额达几千万

新京报
2025-11-05 08:07:47
2025年前三季度结婚登记515.2万对

2025年前三季度结婚登记515.2万对

第一财经资讯
2025-11-05 10:45:09
当深圳00后也来抄底:内地客赴港买房,十年砸下8000亿

当深圳00后也来抄底:内地客赴港买房,十年砸下8000亿

南方都市报
2025-11-05 13:54:46
6人25+得分,湖人4连胜!布朗尼最佳一战3大利好静待老詹回归争冠

6人25+得分,湖人4连胜!布朗尼最佳一战3大利好静待老詹回归争冠

锅子篮球
2025-11-04 19:36:02
突发特讯!中国通告全球:神舟二十号载人飞船疑遭微小碎片撞击,返回任务将推迟进行,引发美西方高度关注

突发特讯!中国通告全球:神舟二十号载人飞船疑遭微小碎片撞击,返回任务将推迟进行,引发美西方高度关注

青风点评
2025-11-05 11:23:07
张纪中被前妻指控涉嫌职务侵占,本人最新回应:100%属于诬告

张纪中被前妻指控涉嫌职务侵占,本人最新回应:100%属于诬告

扬子晚报
2025-11-05 14:54:15
杨瀚森翻译进教练组是误传!本人澄清传言:全因小杨英语进步太快

杨瀚森翻译进教练组是误传!本人澄清传言:全因小杨英语进步太快

罗说NBA
2025-11-05 11:25:20
今年内娱最大的瓜,还没扒完

今年内娱最大的瓜,还没扒完

独立鱼
2025-11-04 23:27:23
西部再无全败队!鹈鹕最后11-0逆转黄蜂获首胜 无锡安8人上双制胜

西部再无全败队!鹈鹕最后11-0逆转黄蜂获首胜 无锡安8人上双制胜

醉卧浮生
2025-11-05 11:36:06
全球首发!刚刚中国开启了无限能源的时代

全球首发!刚刚中国开启了无限能源的时代

一个坏土豆
2025-11-04 20:10:26
“史上最长”春节假期来了!连休9天,腊月二十八和除夕均放假

“史上最长”春节假期来了!连休9天,腊月二十八和除夕均放假

红星新闻
2025-11-04 17:11:09
神舟二十号载人飞船返回任务将推迟进行

神舟二十号载人飞船返回任务将推迟进行

新华社
2025-11-05 09:58:03
离谱!上官正义举报人贩子反遭扣留,被反问:你咋不去帮美国打仗

离谱!上官正义举报人贩子反遭扣留,被反问:你咋不去帮美国打仗

乌娱子酱
2025-11-03 14:27:14
台湾举行大阅兵,场景太凄凉了

台湾举行大阅兵,场景太凄凉了

远方青木
2025-11-05 00:12:54
广西一男子自驾青海失联两月后车被找到,位于无信号废弃矿区附近,行车记录仪最后画面曝光

广西一男子自驾青海失联两月后车被找到,位于无信号废弃矿区附近,行车记录仪最后画面曝光

极目新闻
2025-11-04 19:48:05
中荷谈崩后,荷兰第2波反击开始,东南亚新厂扩建中,一年后供货

中荷谈崩后,荷兰第2波反击开始,东南亚新厂扩建中,一年后供货

有范又有料
2025-11-05 12:22:51
人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

辉辉历史记
2025-11-05 08:51:15
创新药,大消息!刚刚,国家医保局宣布

创新药,大消息!刚刚,国家医保局宣布

中国基金报
2025-11-04 21:13:37
你这辈子听过最诛心的话是啥?网友:老公的爸爸,要我去找好人家

你这辈子听过最诛心的话是啥?网友:老公的爸爸,要我去找好人家

带你感受人间冷暖
2025-11-05 00:20:06
社评:别让安世事件成为欧洲市场经济的污点

社评:别让安世事件成为欧洲市场经济的污点

环球网资讯
2025-11-04 23:33:02
2025-11-05 15:15:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
156文章数 9关注度
往期回顾 全部

科技要闻

马斯克万亿美元薪酬投票在即,大股东反对

头条要闻

牛弹琴:美国上演极致"流氓外交" 让西方媒体目瞪口呆

头条要闻

牛弹琴:美国上演极致"流氓外交" 让西方媒体目瞪口呆

体育要闻

开拓者的11号签,变成了灰熊未来核心?

娱乐要闻

王家卫事件再次升级,可怜了这些明星

财经要闻

中方官宣!对美关税,调整!

汽车要闻

首家"A+H"豪华新能源车企 赛力斯登陆港交所主板

态度原创

旅游
本地
数码
时尚
公开课

旅游要闻

马耳他旅游会奖局荣膺Cvent欧洲卓越奖

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

数码要闻

三星官宣将推 HDR10+ Advanced 视频标准,对抗杜比视界 2

2025羽绒服8大流行趋势,温暖时髦过冬天!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版