网易首页 > 网易号 > 正文 申请入驻

真钱买假模型?187篇论文被「套壳API」坑惨,准确率暴跌

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|Panda

近段时间,时不时就有用户抱怨如今的大模型 API 越来越像「薛定谔的猫」:有时候调用 GPT-5 显得极其聪明,有时候却像个智障。我们不禁怀疑大模型到底有没有在后台偷偷降智。

现在,一篇来自 CISPA 亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》为我们揭开了一点谜底:那些你花真金白银购买的「第三方 API」,有可能偷偷把前沿大模型换成了廉价的替代品。


蚂蚁集团工程师陈成的总结推文截图

该论文在社交网络上引发了广泛讨论:




来自 X 评论,Credit: @frxiaobei、@DeepSky0605、@AgiRay1015、@Tk206_


  • 论文标题:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

  • 论文地址:https://arxiv.org/abs/2603.01919

大模型 API 的灰色江湖

众所周知,受限于高昂的定价、支付壁垒以及特定区域的限制,直接访问 GPT-5 或 Gemini 2.5 等前沿大模型往往困难重重。这种限制催生了一个庞大的第三方代理服务市场。这些服务在学术界被称为「影子 API(Shadow API)」,它们声称可以通过间接访问,提供不受区域限制的官方模型服务。

在这个充满各种「镜像站」和「代理池」的灰色江湖中,大模型套壳现象早有先例。

回顾过去,无论是某斯坦福 AI 团队挪用清华系开源大模型 MiniCPM 的风波,还是市面上各种打着 GPT-4 旗号实际却调用廉价小模型的山寨网站,都让开发者防不胜防。

针对这些 API 进行的系统性审计,彻底暴露了这一灰色产业链对严肃科学研究的破坏力。

CISPA 的研究人员详细追踪了17个影子 API 服务,发现它们已经被引用进了 187 篇学术论文中,并对一部分具有代表性的 API 进行了针对性审计。

这些论文里约有 62% 已经被 ACL 、 CVPR 和 ICLR 等顶级会议录用。其中最受欢迎的一个影子 API 已经积累了 5966 次论文引用,与其相关的一个 GitHub 项目更是获得了将近 6 万个星标。

深入调查这些服务的合规性时,情况更加令人担忧。在这 17 个服务中,多达 11 个是基于 OneAPI 或 NewAPI 等开源 API 分发系统搭建的。离谱的是,这 17 个提供商中只有一家拥有正规的 ICP 备案,其余绝大多数都是个人运营的黑盒,毫无透明度可言。


Shadow API 在学术界使用情况

能力雪崩:当医学专家变成赤脚医生

科研结论如果建立在虚假的底层模型上,整个实验的地基就会随之坍塌。为了弄清楚这些影子 API 到底掺了多少水分,研究团队在科学推理领域(如 AIME 2025、GPQA )和极其敏感的高风险领域(如医疗 MedQA、法律 LegalBench)对具有代表性的API进行了多维度的基准测试。

测试结果令人触目惊心。

以高风险的医疗基准 MedQA 为例,官方的 Gemini-2.5-flash 模型准确率高达 83.82%。

当研究人员通过这些号称「完全一致」的影子 API 进行测试时,准确率直接断崖式下跌到了平均 36.95%。高达 47% 的性能缺口,意味着在一半以上的医疗诊断问题上,该模型可能给出致命的错误建议。

在法律基准测试 LegalBench 中,情况同样糟糕,所有接受评估的影子 API 表现均落后于官方端点 40.10% 到 42.73%。


影子 API 在医疗和法律领域性能下降

下表展示了两个示例:


高难度的逻辑推理任务往往是假模型的重灾区。在包含竞赛级数学题的 AIME 2025 测试中,某热门影子 API 遭遇了严重的精度滑铁卢,其提供的 Gemini-2.5-pro 准确率暴跌 40.00% ,而 DeepSeek-Reasoner 的准确率也急降了 38.89%。


影子 API 在数学和逻辑推理领域性能下降

除了智商大打折扣,它们的安全性也处于一种高度不可控的状态。在面临各种代码混淆或恶意提示词的越狱攻击测试中,影子 API 的表现毫无规律可言。它们有时会严重低估有害内容的风险,给出的有害性评分比官方模型低 0.23 ,有时又会把有害性放大近一倍。


影子 API 与官方 API 在 JailbreakBench 数据集上的安全性能比较

指纹识别 & 提供商的三种套路

为了拿到这些黑盒 API 造假的确凿证据,研究人员动用了大模型指纹识别框架 LLMmap 以及模型相等性测试(MET)来直接验证模型的真实身份。LLMmap 能够通过分析模型对特定查询的响应,计算出输出结果与参考数据库之间的余弦距离,从而判断它到底是个什么模型。

在所有被评估的 24 个具体模型端点中,有 45.83% 的端点直接未能通过指纹验证,另外还有 12.50% 的端点表现出与官方模型存在巨大的余弦距离偏差。这两个数据加起来,意味着超过半数的服务在底层悄悄替换了模型。


通过进一步对生成的 token 数量方差以及推理延迟时间进行分析,研究人员发现官方 API 总是呈现出稳定规律的延迟,而影子 API 的延迟经常出现剧烈的抖动,其波动率甚至会超过官方基准的 2 倍以上。

论文揭露了影子 API 供应商常见的三种经济欺骗手段:

  • 信息溢价: 收取高昂的旗舰版费用,却在后台用能力相似但更便宜的模型进行替换。例如某 API 标榜提供 Gemini 2.0 的早期版本,实际却以 7 倍以上的惊人差价提供 2.5 版本。

  • 折扣替换: 以官方原价收费,但把高端的闭源大模型替换成低成本的开源模型。比如用户高价点名要 GPT-5 ,指纹识别却无情地揭露后台默默运行的其实是 GLM-4-9B。

  • 加价倒卖: 在官方价格基础上加收服务费,同时依旧在后台替换底层模型以赚取多重差价。


三种经济欺骗机制

经过计算,虽然用户是按照官方标准费率(例如 1000 次请求约 14.84 美元)支付的费用,但实际上得到的有效 token 价值只有 5.70 美元到 7.77 美元。这种做法让供应商仅仅在少量查询中就能赚取过半的暴利利润。


科研大厦底层受创

如果普通开发者在构建娱乐机器人时买到了假模型,顶多是带来了糟糕的用户体验。一旦学术界大规模将这些掺水接口用于严肃的数据标注、算法评估或文献总结,整个 AI 研究大厦的公信力都会被严重动摇。

自 2025 年初 DeepSeek 等前沿大模型相继发布并迅速迭代以来,学术界对调用最新强大模型的需求与日俱增。由于正规渠道受限,大量亟待发表论文的研究人员被迫转向这些缺乏监管的影子 API 。

研究者进行了一个保守的估算,即便只有 30% 的受影响论文需要重新运行实验,仅为了修复这 187 篇已知论文中由模型替换带来的数据污染,就需要花费高达 11.5 万至 14 万美元的计算和人工成本。这笔账还没有算上那些引用了这些问题论文的 5966 项后续研究,这些后来者极可能已经在不知不觉中继承并放大了这些底层错误。


Shadow API 生产和交易的生动图解

论文作者给出的最终建议直白且强硬:应当完全避免在严肃的研究工作流中使用任何未经严格验证的影子 API。

如果迫于客观条件不得不使用,研究团队在正式收集数据前,必须引入强制性的审核协议。这包括运行至少 24 次指纹探测、进行 500 个样本分布测试以比对 p 值,以及通过多次独立会话来检查延迟和方差是否异常。

在这个真假难辨的 AI 时代,技术永远在狂飙突进,而商业的阴暗面也同样在疯狂滋长。对于每一位追求严谨的从业者和研究员来说,保持怀疑态度是我们面对黑盒大模型服务时的最后一道防线。

你被坑过吗?

https://x.com/chenchengpro/status/2029586877800686056

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

麓谷隐士
2026-03-06 11:13:24
嘲讽裁判张雷:铁人外援面临追罚!鲁媒:他懂“闭着眼瞎吹”精髓

嘲讽裁判张雷:铁人外援面临追罚!鲁媒:他懂“闭着眼瞎吹”精髓

建哥说体育
2026-03-07 21:35:50
俄警告芬兰不要部署核武器

俄警告芬兰不要部署核武器

参考消息
2026-03-07 14:33:09
普京出手了!美伊大战,开始外溢了!

普京出手了!美伊大战,开始外溢了!

大嘴说天下
2026-03-06 22:42:56
72岁大爷斑块消失,他把血管变干净的三个方法,连医生也赞叹

72岁大爷斑块消失,他把血管变干净的三个方法,连医生也赞叹

荆医生科普
2026-03-03 16:40:19
文旅部部长:外国游客来华都说“你好”不再用“Hello”,喝开水吃火锅成体验中国生活标配

文旅部部长:外国游客来华都说“你好”不再用“Hello”,喝开水吃火锅成体验中国生活标配

极目新闻
2026-03-07 12:57:58
《人民的名义》给领导们开车的司机,他们到底有没有编制?

《人民的名义》给领导们开车的司机,他们到底有没有编制?

剧有梗
2026-03-08 07:30:58
沈阳浑河惊现鹿群!

沈阳浑河惊现鹿群!

沈阳公交网小林
2026-03-08 00:09:24
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
震惊!北京千峰教育撤场,网友:难以想象,计算机也成当年的土木

震惊!北京千峰教育撤场,网友:难以想象,计算机也成当年的土木

火山詩话
2026-03-07 07:30:56
新一轮反击!伊朗引燃油料库,11国几乎同时参战,特朗普呼叫援军

新一轮反击!伊朗引燃油料库,11国几乎同时参战,特朗普呼叫援军

古事寻踪记
2026-03-08 07:10:31
陆毅鲍蕾陪女剪牙套,17岁贝儿疼到当场落泪,4年半煎熬终结束

陆毅鲍蕾陪女剪牙套,17岁贝儿疼到当场落泪,4年半煎熬终结束

草莓解说体育
2026-03-06 16:42:30
全球9个拥核国都有谁?除五常之外,还有4个“事实拥核国”

全球9个拥核国都有谁?除五常之外,还有4个“事实拥核国”

爆史君带你读历史
2026-03-05 17:19:52
北京小客车摇号重要通知!

北京小客车摇号重要通知!

小蜜情感说
2026-03-07 07:19:10
彭博称波音我国接近敲定约500架客机订单——如果为真,利弊各半

彭博称波音我国接近敲定约500架客机订单——如果为真,利弊各半

火星宏观
2026-03-07 11:31:48
战火下伊朗“红色黄金”面临供应链风险 中国进口商:合作4年的伊朗客户失联了

战火下伊朗“红色黄金”面临供应链风险 中国进口商:合作4年的伊朗客户失联了

极目新闻
2026-03-06 19:51:04
山口百惠自曝:8年赚4亿,21岁下嫁退隐后,连6万的包都不舍买

山口百惠自曝:8年赚4亿,21岁下嫁退隐后,连6万的包都不舍买

白面书誏
2026-03-07 15:15:38
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
美军阵亡士兵遗体继续在中东被发现

美军阵亡士兵遗体继续在中东被发现

碳基生物关怀组织
2026-03-03 23:37:09
夺下全国第一,磷化工巨头,一战成名!

夺下全国第一,磷化工巨头,一战成名!

飞鲸投研
2026-03-07 19:25:33
2026-03-08 08:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2392168文章数 5731关注度
往期回顾 全部

科技要闻

OpenClaw最大的推手是闲鱼和小红书

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
教育
房产
数码
公开课

家居要闻

暖棕撞色 轻法奶油风

教育要闻

教育部部长:去年高中阶段教育毛入学率92%

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

数码要闻

苹果MacBook Neo跑分出炉:A18 Pro少了一个核心 GPU被反杀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版