「我们跑了评测,分数涨了,上线就崩。」一位AI工程师的吐槽,道出了大模型落地的隐形陷阱。
原文作者抛出一个被忽视的事实:现有持续集成(CI)体系是为确定性代码设计的,而大模型输出天然不确定。评测集(evals)只能告诉你模型能力边界,却监控不了生产环境的API契约漂移。
![]()
什么是契约漂移
你的应用依赖模型返回特定JSON结构,比如{"sentiment": "positive", "confidence": 0.92}。模型版本更新后,字段名变成sentiment_score,或者多了层嵌套——没报错,但下游全崩。
这不是幻觉问题,是结构契约破坏。传统单元测试抓不住,因为每次调用结果本就不一样。
为什么评测不够
评测集关注的是准确率、召回率、人类偏好对齐。作者指出一个盲区:这些指标不监控「输出格式稳定性」。
模型厂商迭代频繁。你上周调通的提示词,这周可能因底层模型升级而解析失败。评测分数漂亮,生产环境却埋雷。
缺失的CI层长什么样
作者呼吁的解决方案很具体:在现有CI流水线里插入「契约测试」——
• 固定输入样本,断言输出结构而非内容
• 监控字段类型、必填项、枚举值范围
• 模型版本变更时自动触发结构回归测试
这不算新技术,是API测试的老办法。但大模型生态里,所有人都在追SOTA分数,没人谈工程稳健性。
谁该操心这件事
不是模型开发者,是用模型做产品的人。你的RAG系统、Agent工作流、自动化报表——任何依赖结构化输出的场景,都是契约漂移的受害者。
作者没给现成工具,只抛出问题。这恰恰说明:大模型基础设施的成熟度,被过度高估了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.