说个鬼故事: 你花钱用的大模型,可能是山寨版 这里的山寨,指的是: 挂着同样名称,性能明显不达标模型
晚上群里看了个报告:
大致意思是:有 12 家 API 服务商在提供 K2,但和官方 API 的相似度各不相同,低至 48.93%
![]()
不同服务商的「官方实现相似度」
这里表达下观点:
• API 偷手是个很严重的问题,也很普遍
• 无论是官方,还是第三方,都存在这个问题(比如很多时候,我们会说 GPT 变笨了)
• 我非常赞同这个比较方法,应该做成一个 Benchmark
• 这个报告也有一些局限性,指标会让人误解
下面,我分别来说
模型偷手,很普遍
先说个年初的事
DeepSeek-R1 发布后,各种平台都说自己接入 671B 满血版
但... 671B,真的是满血吗?不见得
模型除了尺寸之外,还有别的属性,比如精度、推理长度...非常多
比如 DeepSeek 官方开源的 671B 为例:默认 FP8 精度
而平台可以为了省蒜粒,可以使用量化版,比如 INT4 精度,这也可以称为 671B,没毛病
很显然:精度越低,模型表现越差
但用户完全不知道,看到有就用了
同一个问题,问三家平台的 DeepSeek,答案完全不一样
这就是典型的黑箱操作:
正如 1 可以是 ∅,满血也能阉割
而且不只是第三方的问题。官方 API 也会出现:
• 为了降本增效调整推理参数
• 为了提升速度牺牲精度
• 为了负载均衡降低资源分配
用户感知就是:这模型怎么变笨了 是吧,OpenAI?说回测试
这份来自 MoonShot 的测试,做了一件事:
比较第三方平台,与官方的响应差异
开源了 50% 的测试数据,服务商可以自己跑,用户也可以自己测
![]()
测试的内容
我觉得吧,这个方法应该做成 Benchmark
不只是 K2,各个模型都可以对照测试
让服务商没法糊弄,让用户有选择依据
报告的局限性
说实话,这份报告也有局限性
比如「相似度」这个指标,还可以优化
看数据:
某个服务商成功调用 1445 次,官方 1286 次
明显不比官方差,但相似度只有 88.05 %(显得很差,这很有问题)
![]()
这个报告...其第一遍,其实没看明白
要知道:对于同样的模型,官方提供的 API 也不一定是最好的
(虽然大多数情况下并不会)
举个例子:官方设定的推理是 100 个 tokens,但第三方给了 1000,第三方就会好
所以,更合理的指标应该是:
• 准确率:该调用的时候调了吗
• 精确率:调用的都对吗
• F1-Score:综合评估
• 直接以官方为 100 分基准
这个问题的本质,是信息不对称
对于大模型的消费者,无论是用 AI 产品的,还是用 API 的
你只知道模型的名字,并不知道用的什么精度,怎么推理的之类
这些东西,服务商也不会主动说
性能打折,用户只会觉得是 prompt 没写好
反正死无对证,又能咋地
AI 行业,需要自己的 315 花钱用模型,得知道用的啥
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.