网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI 行业需要 315：「山寨版大模型」是常态

2025-10-11 21:24:44　来源: 赛博禅心

北京举报

0

分享至

说个鬼故事：你花钱用的大模型，可能是山寨版这里的山寨，指的是：挂着同样名称，性能明显不达标模型

晚上群里看了个报告：

大致意思是：有 12 家 API 服务商在提供 K2，但和官方 API 的相似度各不相同，低至 48.93%

不同服务商的「官方实现相似度」

这里表达下观点：

• API 偷手是个很严重的问题，也很普遍
• 无论是官方，还是第三方，都存在这个问题（比如很多时候，我们会说 GPT 变笨了）
• 我非常赞同这个比较方法，应该做成一个 Benchmark
• 这个报告也有一些局限性，指标会让人误解

下面，我分别来说

模型偷手，很普遍

先说个年初的事

DeepSeek-R1 发布后，各种平台都说自己接入 671B 满血版

但... 671B，真的是满血吗？不见得

模型除了尺寸之外，还有别的属性，比如精度、推理长度...非常多

比如 DeepSeek 官方开源的 671B 为例：默认 FP8 精度
而平台可以为了省蒜粒，可以使用量化版，比如 INT4 精度，这也可以称为 671B，没毛病

很显然：精度越低，模型表现越差
但用户完全不知道，看到有就用了
同一个问题，问三家平台的 DeepSeek，答案完全不一样

这就是典型的黑箱操作：

正如 1 可以是 ∅，满血也能阉割

而且不只是第三方的问题。官方 API 也会出现：

• 为了降本增效调整推理参数
• 为了提升速度牺牲精度
• 为了负载均衡降低资源分配

用户感知就是：这模型怎么变笨了是吧，OpenAI？

说回测试

这份来自 MoonShot 的测试，做了一件事：

比较第三方平台，与官方的响应差异

开源了 50% 的测试数据，服务商可以自己跑，用户也可以自己测

测试的内容

我觉得吧，这个方法应该做成 Benchmark
不只是 K2，各个模型都可以对照测试
让服务商没法糊弄，让用户有选择依据

报告的局限性

说实话，这份报告也有局限性
比如「相似度」这个指标，还可以优化

看数据：

某个服务商成功调用 1445 次，官方 1286 次

明显不比官方差，但相似度只有 88.05 %（显得很差，这很有问题）

这个报告...其第一遍，其实没看明白

要知道：对于同样的模型，官方提供的 API 也不一定是最好的
（虽然大多数情况下并不会）

举个例子：官方设定的推理是 100 个 tokens，但第三方给了 1000，第三方就会好

所以，更合理的指标应该是：

• 准确率：该调用的时候调了吗
• 精确率：调用的都对吗
• F1-Score：综合评估
• 直接以官方为 100 分基准

最后说两句

这个问题的本质，是信息不对称
对于大模型的消费者，无论是用 AI 产品的，还是用 API 的
你只知道模型的名字，并不知道用的什么精度，怎么推理的之类

这些东西，服务商也不会主动说
性能打折，用户只会觉得是 prompt 没写好
反正死无对证，又能咋地

AI 行业，需要自己的 315 花钱用模型，得知道用的啥

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

新智元 2025-11-03 17:19:44
2 跟贴 2
我MiniMax，用实习生处理数据，照样屠榜开源大模型

量子位 2025-11-04 13:14:18
4 跟贴 4

智能体驱动：企业从“界面操作”到“智能助力”的必然路径

钛媒体APP 2025-10-20 16:40:12
0 跟贴 0

AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

量子位 2025-09-04 14:49:30
7 跟贴 7
Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0

全球首个「导航大脑」上线！一句话让机器人自己找路回家

新智元 2025-11-05 10:16:48
2 跟贴 2

用完这张无限可能的AI画布，第一次感觉人类导演要失业了！

新智元 2025-11-04 10:12:24
3 跟贴 3
AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

机器之心Pro 2025-11-04 13:44:22
0 跟贴 0

成为具身智能“大脑”，多模态世界模型需要具备哪些能力？丨ToB产业观察

钛媒体APP 2025-11-05 11:53:45
0 跟贴 0
Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0
竞争惨烈，“90后”逆袭

中国新闻周刊 2025-11-05 07:28:04
62 跟贴 62
比NanoBanana更擅长中文和细节控制！兔展&北大新模型刷新SOTA

量子位 2025-11-05 14:42:26
0 跟贴 0
大摩实测OpenAI投资的家务机器人：现阶段仅是“融资策略”，而非真正实用工具

华尔街见闻官方 2025-11-05 14:57:11
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
男子通过模型讲解自建房结构，“圈梁构造柱楼板马牙槎”，网友：楼板才是砖混结构的灵魂

鹤壁焦点 2025-11-03 16:34:57
357 跟贴 357
10个Agent一键组队：并行智能体协作，端到端交付从24h缩减到4h！

新智元 2025-10-04 13:15:17
5 跟贴 5
Qwen3-Max思考版上线，集成代码解释器攻坚复杂数学

DeepTech深科技 2025-11-04 17:45:57
2 跟贴 2
英伟达帮你省钱，让大模型推理「短而精」，速度快5倍

机器之心Pro 2025-11-04 13:49:30
2 跟贴 2
“史上最长”春节假期来了！连休9天，腊月二十八和除夕均放假

红星新闻 2025-11-04 17:11:09
13228 跟贴 13228
轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心Pro 2025-10-20 18:23:17
0 跟贴 0
11.2号郑好直播：粉丝提议让郑好公布直播数据，气死那些黑粉

传奇戏骨人生 2025-11-04 04:30:25
0 跟贴 0
1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8631 跟贴 8631
根系关系第2讲，求参数的值

大鹏老师讲数学 2025-11-04 05:07:00
0 跟贴 0
安世半导体风波还在继续德国巨头们紧急寻求中国豁免

澎湃新闻 2025-11-04 18:40:41
6274 跟贴 6274
中国有了自己的租房“大模型”

华商韬略 2025-11-05 10:24:49
2 跟贴 2
请自重吧，这是公众平台！

男人的情怀 2025-11-03 16:49:13
1 跟贴 1
富家花重金，买下泰森11的拳头模型，有钱就是豪横

欢乐梦工厂 2025-11-04 11:55:45
1 跟贴 1
垃圾进垃圾出，大模型刷多了垃圾推文，智商骤降还变自恋狂

机器之心Pro 2025-10-24 18:51:47
0 跟贴 0
冲突4个月，乌军战死5万人？俄军统计数据怎么来的，有水分吗？

三叔胡侃 2025-11-04 09:06:37
2 跟贴 2
厢遇活动回顾丨剧本杀推理沙龙遇见另一个我

都市热报 2025-11-04 10:54:04
0 跟贴 0
用学生跳楼出题作业帮回应

中国新闻周刊 2025-11-04 19:10:41
682 跟贴 682
小米测试车跑不停？22万公里车主数据给了答案

小南看车 2025-11-04 22:44:01
106 跟贴 106
最高折合351万元/亩，商丘成功出让2宗优质土地

天命生商 2025-11-05 10:23:24
0 跟贴 0
三亚海滩“长满”了俄罗斯人！网友调侃：我在这里反而成了“老外”

封面新闻 2025-11-02 12:57:02
148 跟贴 148
狸花猫就是缩小版老虎，体型花纹儿脸型，相似度非常高！

生活有易看点 2025-11-02 11:01:47
1 跟贴 1
巴媒：内马尔的身体各项数据指标远低于顶级球员标准

懂球帝 2025-11-05 10:09:09
5 跟贴 5
中美日离婚率惊人差距：美国2.4%，日本23.5%，中国数据震撼

星落山间 2025-11-03 00:53:50
63 跟贴 63
一汽集团将成零跑汽车第一大股东分步收购方案已获批

中国经济网 2025-11-04 21:28:03
495 跟贴 495
纪扶犁解读：社平工资数据为什么反直觉了？原来如此

纪扶犁 2025-11-04 23:26:57
5 跟贴 5
美军打造单兵作战平台，或将改变未来战争规则！

大国观天下 2025-11-02 21:43:18
105 跟贴 105

32个“完美男人”的骗局：为离婚女人“定制”买房陷阱，涉案金额达几千万

32个“完美男人”的骗局：为离婚女人“定制”买房陷阱，涉案金额达几千万

新京报

2025-11-05 08:07:47

2025年前三季度结婚登记515.2万对

2025年前三季度结婚登记515.2万对

第一财经资讯

2025-11-05 10:45:09

当深圳00后也来抄底：内地客赴港买房，十年砸下8000亿

当深圳00后也来抄底：内地客赴港买房，十年砸下8000亿

南方都市报

2025-11-05 13:54:46

6人25+得分，湖人4连胜！布朗尼最佳一战3大利好静待老詹回归争冠

6人25+得分，湖人4连胜！布朗尼最佳一战3大利好静待老詹回归争冠

锅子篮球

2025-11-04 19:36:02

突发特讯！中国通告全球：神舟二十号载人飞船疑遭微小碎片撞击，返回任务将推迟进行，引发美西方高度关注

突发特讯！中国通告全球：神舟二十号载人飞船疑遭微小碎片撞击，返回任务将推迟进行，引发美西方高度关注

青风点评

2025-11-05 11:23:07

张纪中被前妻指控涉嫌职务侵占，本人最新回应：100％属于诬告

张纪中被前妻指控涉嫌职务侵占，本人最新回应：100％属于诬告

扬子晚报

2025-11-05 14:54:15

杨瀚森翻译进教练组是误传！本人澄清传言：全因小杨英语进步太快

杨瀚森翻译进教练组是误传！本人澄清传言：全因小杨英语进步太快

罗说NBA

2025-11-05 11:25:20

今年内娱最大的瓜，还没扒完

独立鱼

2025-11-04 23:27:23

西部再无全败队！鹈鹕最后11-0逆转黄蜂获首胜无锡安8人上双制胜

西部再无全败队！鹈鹕最后11-0逆转黄蜂获首胜无锡安8人上双制胜

醉卧浮生

2025-11-05 11:36:06

全球首发！刚刚中国开启了无限能源的时代

全球首发！刚刚中国开启了无限能源的时代

一个坏土豆

2025-11-04 20:10:26

“史上最长”春节假期来了！连休9天，腊月二十八和除夕均放假

“史上最长”春节假期来了！连休9天，腊月二十八和除夕均放假

红星新闻

2025-11-04 17:11:09

神舟二十号载人飞船返回任务将推迟进行

神舟二十号载人飞船返回任务将推迟进行

新华社

2025-11-05 09:58:03

离谱！上官正义举报人贩子反遭扣留，被反问：你咋不去帮美国打仗

离谱！上官正义举报人贩子反遭扣留，被反问：你咋不去帮美国打仗

乌娱子酱

2025-11-03 14:27:14

台湾举行大阅兵，场景太凄凉了

远方青木

2025-11-05 00:12:54

广西一男子自驾青海失联两月后车被找到，位于无信号废弃矿区附近，行车记录仪最后画面曝光

广西一男子自驾青海失联两月后车被找到，位于无信号废弃矿区附近，行车记录仪最后画面曝光

极目新闻

2025-11-04 19:48:05

中荷谈崩后，荷兰第2波反击开始，东南亚新厂扩建中，一年后供货

中荷谈崩后，荷兰第2波反击开始，东南亚新厂扩建中，一年后供货

有范又有料

2025-11-05 12:22:51

人类“最惨”的一年是哪一年？公元536年称第二，没人敢称第一！

人类“最惨”的一年是哪一年？公元536年称第二，没人敢称第一！

辉辉历史记

2025-11-05 08:51:15

创新药，大消息！刚刚，国家医保局宣布

创新药，大消息！刚刚，国家医保局宣布

中国基金报

2025-11-04 21:13:37

你这辈子听过最诛心的话是啥？网友：老公的爸爸，要我去找好人家

你这辈子听过最诛心的话是啥？网友：老公的爸爸，要我去找好人家

带你感受人间冷暖

2025-11-05 00:20:06

社评：别让安世事件成为欧洲市场经济的污点

社评：别让安世事件成为欧洲市场经济的污点

环球网资讯

2025-11-04 23:33:02

拜AI古佛，修赛博禅心

156文章数 9关注度

往期回顾全部

科技要闻

马斯克万亿美元薪酬投票在即，大股东反对

头条要闻

牛弹琴：美国上演极致"流氓外交" 让西方媒体目瞪口呆

头条要闻

牛弹琴：美国上演极致"流氓外交" 让西方媒体目瞪口呆

体育要闻

开拓者的11号签，变成了灰熊未来核心？

娱乐要闻

王家卫事件再次升级，可怜了这些明星

财经要闻

中方官宣！对美关税，调整！

汽车要闻

首家"A+H"豪华新能源车企赛力斯登陆港交所主板

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

本地

数码

时尚

公开课

旅游要闻

马耳他旅游会奖局荣膺Cvent欧洲卓越奖

本地新闻

秋颜悦色 | 在榆中，秋天是一场盛大的视觉交响

数码要闻

三星官宣将推 HDR10+ Advanced 视频标准，对抗杜比视界 2

2025羽绒服8大流行趋势，温暖时髦过冬天！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版