网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型评测没告诉你的：API契约漂移

2026-04-18 06:25:05　来源: 摸鱼算法

北京举报

0

分享至

「我们跑了评测，分数涨了，上线就崩。」一位AI工程师的吐槽，道出了大模型落地的隐形陷阱。

原文作者抛出一个被忽视的事实：现有持续集成（CI）体系是为确定性代码设计的，而大模型输出天然不确定。评测集（evals）只能告诉你模型能力边界，却监控不了生产环境的API契约漂移。

什么是契约漂移

你的应用依赖模型返回特定JSON结构，比如{"sentiment": "positive", "confidence": 0.92}。模型版本更新后，字段名变成sentiment_score，或者多了层嵌套——没报错，但下游全崩。

这不是幻觉问题，是结构契约破坏。传统单元测试抓不住，因为每次调用结果本就不一样。

为什么评测不够

评测集关注的是准确率、召回率、人类偏好对齐。作者指出一个盲区：这些指标不监控「输出格式稳定性」。

模型厂商迭代频繁。你上周调通的提示词，这周可能因底层模型升级而解析失败。评测分数漂亮，生产环境却埋雷。

缺失的CI层长什么样

作者呼吁的解决方案很具体：在现有CI流水线里插入「契约测试」——

• 固定输入样本，断言输出结构而非内容
• 监控字段类型、必填项、枚举值范围
• 模型版本变更时自动触发结构回归测试

这不算新技术，是API测试的老办法。但大模型生态里，所有人都在追SOTA分数，没人谈工程稳健性。

谁该操心这件事

不是模型开发者，是用模型做产品的人。你的RAG系统、Agent工作流、自动化报表——任何依赖结构化输出的场景，都是契约漂移的受害者。

作者没给现成工具，只抛出问题。这恰恰说明：大模型基础设施的成熟度，被过度高估了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

编程智能体的隐藏bug，被上交IPADS团队用数学逻辑给揪出来了

DeepTech深科技 2026-04-18 11:18:39
0 跟贴 0
三层防御仍然不够，一条PR标题就能偷走你的API密钥：AI Agent安全裂痕再现

钛媒体APP 2026-04-18 10:44:12
0 跟贴 0

百万Token白烧？Claude官方下场：5招治好上下文腐烂

新智元 2026-04-19 09:09:07
0 跟贴 0

我用1分钟开发了个上线应用，有阿里Meoo谁还学编程啊

量子位 2026-04-16 11:08:31
7 跟贴 7
Opus 4.7重新登顶榜单，但强得多的GPT-5.5极大概率下周就发

新智元 2026-04-19 19:05:24
4 跟贴 4

老婆发现合约老公跟投资方关系不一般，彻底不淡定了

西蒙追剧 2026-04-18 07:48:19
1 跟贴 1

五亿大单临签约，同事一条消息让我合上合同：这单先隔着！

雪姐故事多 2026-04-16 08:43:49
0 跟贴 0
大模型架构的下半场

量子位 2026-04-19 18:11:02
0 跟贴 0

专业动作请勿模仿小姐姐翘尾漂移太帅了

瓜田料下 2026-04-16 10:20:42
3 跟贴 3
当老板与员工展开“蒸馏”对抗

经济观察报 2026-04-18 17:48:45
22 跟贴 22
陈翔六点半：别走开，我给你表演个轮椅漂移！

呲花娱乐 2026-04-17 23:41:48
2 跟贴 2
因为不小心毁了纪封的合同，他一气之下投诉了蜜语！

小婉说剧 2026-04-17 22:38:37
0 跟贴 0
老总用合同潜规则女客户，没想到却被反将一军

瓜瓜看剧 2026-04-18 07:56:08
1 跟贴 1
自行车漂移

不要搞笑鸭 2026-04-16 15:22:44
1 跟贴 1
新能源汽车更新迭代！

老闫大实话 2026-04-19 21:28:58
1 跟贴 1
教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，一站解决

量子位 2026-04-19 12:23:00
0 跟贴 0
【数智周报】DeepSeek据悉正首次洽谈外部资本，估值超100亿美元；台积电CEO：全力扩产仍难以满足强劲AI需求；斯坦福报告：中美顶级大模型差距“实

钛媒体APP 2026-04-19 20:06:22
0 跟贴 0
男子骑三轮车准备拐弯，结果万万没想到，网友：这是打算漂移吗

奇妙观探 2026-04-19 15:27:02
0 跟贴 0
这漂移技术不错哦，SUV急刹车，都不知道打开双闪提醒后车

青果视频 2026-04-19 16:09:05
3 跟贴 3
张本智和一家投奔德国，合约期满将何去何从？

収起了底线 2026-04-19 04:33:01
4 跟贴 4
跳伞选手降落，原以为落地很慢，没有想到下地还带漂移

视听丝路 2026-04-17 18:16:59
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
驾校学车偶遇大神秀操作，倒车漂移一气呵成

南阳日报 2026-04-17 19:31:54
0 跟贴 0
一招360度甩尾，便可横扫天下

瓜田料下 2026-04-19 10:42:12
1 跟贴 1
90年代的宝马E36经典漂移滑成宝马，漂移很丝滑！

科普世界奇闻 2026-04-17 07:54:36
16 跟贴 16
中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews 2026-04-19 08:36:10
42076 跟贴 42076
地面太光滑，罐车直接漂移！

君宝穷游中国 2026-04-19 15:48:33
1 跟贴 1
司机在沙滩玩漂移，嘚瑟过头成社死现场，至少三年抬不起头

宇宙笨小孩 2026-04-19 16:13:56
0 跟贴 0
魏建军为何频频拿“契约”说事？

禾颜阅车 2026-04-18 14:45:05
8 跟贴 8
在挪威学车，居然还要模拟撞车，翻车，漂移等项目

土豆糯米饭精选 2026-04-18 04:42:15
1 跟贴 1
当信任崩塌之后——江南与知音公司争议的本质与启示

知产力 2026-04-18 20:01:25
0 跟贴 0
新收误闯打大佬局，全程不敢睁眼睛，合同都是这么谈成的吗？

段子搞笑站 2026-04-18 16:19:37
0 跟贴 0
你查过你合同的签名吗？你的原始合同还在吗？

浅海 2026-04-20 04:50:50
0 跟贴 0
“萨扎饭”：没有字据的契约他们守了近300年

新华社 2026-04-19 21:22:26
0 跟贴 0
治好信贷AI的选择困难症

虎嗅APP 2026-01-13 18:29:18
0 跟贴 0
中国全力追赶，印度将军称福建航母落后10年电磁弹射技术

赶山的姑娘 2026-04-18 15:53:35
0 跟贴 0
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
15 跟贴 15
50岁和20岁女生，双唇有什么差异，对比这几个指标，都明白了

晓芙搞笑 2026-04-17 04:40:21
102 跟贴 102
印度油轮在霍尔木兹遭炮击船员喊话伊朗海军录音公布

红星新闻 2026-04-19 17:03:18
11412 跟贴 11412
荣耀机器人包揽半马前三工程师回应

新京报 2026-04-19 12:25:11
4069 跟贴 4069

小宝与王某雷，谁探访花的数量更多？

小宝与王某雷，谁探访花的数量更多？

挪威森林

2026-01-31 12:15:26

电脑一管硅脂用十年引热议！网友直呼太离谱

电脑一管硅脂用十年引热议！网友直呼太离谱

游民星空

2026-04-17 19:40:21

事实证明，已经“消失”7年的周立波，早已走上一条不归路

事实证明，已经“消失”7年的周立波，早已走上一条不归路

素衣读史

2026-04-16 19:41:20

这是李鸿章妻妾的真实样貌，个个美艳身材修长，颜值不输当代女星

这是李鸿章妻妾的真实样貌，个个美艳身材修长，颜值不输当代女星

阿废冷眼观察所

2026-04-11 18:41:14

瓜帅：这是英超的一次精彩展示；赛季最佳新人必须颁给奥赖利

瓜帅：这是英超的一次精彩展示；赛季最佳新人必须颁给奥赖利

懂球帝

2026-04-20 02:54:06

抵京！首钢新外援威廉姆斯：我是全能型，会去做球队要求的一切

抵京！首钢新外援威廉姆斯：我是全能型，会去做球队要求的一切

懂球帝

2026-04-19 22:36:59

2-1，4-2！足坛疯狂一夜，拜仁提前四轮卫冕！阿森纳掉链子，英超冠军悬了！巴黎爆冷！

2-1，4-2！足坛疯狂一夜，拜仁提前四轮卫冕！阿森纳掉链子，英超冠军悬了！巴黎爆冷！

体坛最前线66

2026-04-20 06:18:31

刚上任就赢球！但迈阿密国际新帅说梅西才是世界第一主教练！

刚上任就赢球！但迈阿密国际新帅说梅西才是世界第一主教练！

历史第一人梅西

2026-04-19 10:47:16

局势恶化，日媒曝高市为战争铺路，30国已介入

局势恶化，日媒曝高市为战争铺路，30国已介入

笙歌君独幽a

2026-04-20 05:13:48

麻豆传媒彻底关停！是什么把它逼上绝路？

麻豆传媒彻底关停！是什么把它逼上绝路？

牲产队

2026-04-09 15:05:30

许家印案最新进展：68岁认罪，前恒大歌舞团长白珊珊被曝定居澳门

许家印案最新进展：68岁认罪，前恒大歌舞团长白珊珊被曝定居澳门

鉴史录

2026-04-19 09:44:38

比恒大还惨！中国第二大民企倒了，负债7500亿，创始人被带走

比恒大还惨！中国第二大民企倒了，负债7500亿，创始人被带走

芳芳历史烩

2025-12-25 20:32:52

卡梅隆·迪亚兹：2003年那顿饭，终结了明星时代

卡梅隆·迪亚兹：2003年那顿饭，终结了明星时代

热搜摘要官

2026-04-19 05:19:52

斯诺克世锦赛10强赛：5人晋级，中国2人出局

斯诺克世锦赛10强赛：5人晋级，中国2人出局

铿锵格斗

2026-04-20 06:00:53

10-1胜传奇名将，五连鞭打懵世界第一，三利好成就第二人

10-1胜传奇名将，五连鞭打懵世界第一，三利好成就第二人

逗比演员说体育

2026-04-06 11:02:36

回国之后才敢说：真实的越南，部分中国人去了简直就是一个小白鼠

回国之后才敢说：真实的越南，部分中国人去了简直就是一个小白鼠

番外行

2026-03-22 00:05:09

预售价近40万元的小鹏，把所有人都忽悠了！

预售价近40万元的小鹏，把所有人都忽悠了！

新浪财经

2026-04-19 02:52:50

一天4次！19岁少女患上外阴癌，崩溃大哭：这个习惯我真的戒不掉

一天4次！19岁少女患上外阴癌，崩溃大哭：这个习惯我真的戒不掉

健康科普365

2026-03-15 11:20:06

欧尔班威胁：下周恢复油运我们就解冻90亿欧元援助

欧尔班威胁：下周恢复油运我们就解冻90亿欧元援助

桂系007

2026-04-19 23:49:10

伊朗一仗点醒普京，俄罗斯或不再是世界大国，中国不是第二强？

伊朗一仗点醒普京，俄罗斯或不再是世界大国，中国不是第二强？

阿雹娱乐

2026-04-16 07:46:23

致力于用最前沿的AI技术，换取更多发呆时间的三十岁青年。

1542文章数 16关注度

往期回顾全部

科技要闻

50分26秒破人类纪录！300台机器人狂飙半马

头条要闻

半年下沉22厘米女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭：老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万！内娱隔空掀桌第一人

财经要闻

华谊兄弟，8年亏光85亿

汽车要闻

29分钟大定破万极氪8X为什么这么多人买？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

游戏

数码

旅游

公开课

家居要闻

法式线条时光静淌

"二次元GTA"直播爆了：疑似贴脸嘲讽其他二游！

数码要闻

华为新机发布前瞻：阔折叠X Max+影像旗舰Pura 90，都没悬念了

旅游要闻

小浪底库区南北两岸游线通航

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版