![]()
AI系统最麻烦的不是崩溃,而是「假装正常」。Anthropic本周放出一项内部研究:他们的模型会在不报错的情况下输出错误答案,而常规监控工具完全察觉不到。换句话说,你的AI可能在「一本正经地胡说八道」,你还以为它在好好干活。
这项研究由云与AI工程高管Varun Raj牵头。团队发现,传统监控只看系统是否宕机、响应是否超时,但对「答案错了却格式正确」的情况束手无策。他们测试了多个生产环境,近70%的隐性故障就这样溜了过去。
Raj的原话很直白:「AI可以出错而不崩溃——标准监控抓不到。」团队最终搞出一套新方案,让模型在输出前多走一步自检,把「沉默故障」暴露出来。这相当于给AI配了个质检员,专门抓那些看起来没问题的错答案。
目前这套机制已在Anthropic内部部分上线。一个有趣的细节是:早期测试中,模型自检后反而更频繁地「喊停」——不是变得更谨慎,而是终于学会了承认「这道题我不会」。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.