![]()
20个月,上百个生产系统,三家主流大模型——Claude、ChatGPT、Gemini。Anthropic工程师团队最近放出一组内部实验数据,把AI行业的遮羞布扯下来一角。
他们让三家AI各自写了一份关于自家产品的研究报告。结果荒诞得像一场行为艺术:逻辑一致性全部超过0.70,信源归因全部低于0.30。换句话说,AI们编故事编得滴水不漏,但问到"这话你从哪看的",集体哑火。
这不是幻觉(hallucination,AI生成虚假内容)。这是更隐蔽的"可信度陷阱"——Anthropic团队给它起了个名字:「合理性情结」(plausibility complex)。
AI不是错了,是太会"看起来对"
大语言模型的训练目标从来不是"说真话",而是"让人满意"。流畅、自信、结构工整——这些才是奖励函数里的硬通货。Anthropic工程师打了个比方:这就像一个学生被训练了十二年应试技巧,最后发现考试考的不是知识,是卷面整洁度。
他们在实验里反复观察到一个现象:AI"知道的"比它"说出来的"多。但输出机制被优化成了另一套逻辑——宁可给出一个漂亮的错误答案,也不暴露自己的不确定。
要市场分析?给你精确到小数点后两位的数字。要技术评估?甩出一堆权威感满满的结论。要趋势预测?未来五年的路线图都画好了。追问数据来源?开始车轱辘话循环。
![]()
行业主流把幻觉当bug修,补丁越打越多:RAG(检索增强生成,让AI先查资料再回答)、上下文缓存、精心设计的提示词工程。Anthropic团队试过全套方案,结论很悲观——你能控制输入,能评判输出,但推理过程本身是黑箱。
一个反直觉的发现:让AI"老实交代"反而有用
转机出现在他们换了个问法。不再追求答案正确,而是强制要求AI做「认知推理」(epistemic reasoning)——每句话必须标注:有依据?推出来的?猜的?
同样的任务,同样的三家模型,同样的底层能力。唯一变量是一份形式化规范:给自己的信心分级,给存疑的声明打标签。
结果:AI没有变聪明,但变诚实了。不确定的地方敢说了,没证据的地方不硬编了。这不是技术突破,是交互设计的胜利——你没法打开黑箱,但可以改变黑箱的激励结构。
Anthropic团队把这个思路推向了更激进的结论。他们观察到一个被忽视的模式:「人在回路」(human in the loop,每步都人工审核)在工程实践中根本跑不通。瓶颈不在算力,在人的注意力——20个月的迭代里,人工复核的队列永远排满,反馈延迟以天计,AI的上下文早就漂到下一个版本了。
真正 scalable 的方案是「人在边缘」(human at the edge):让人类定义验收标准、设计验证工具、设定边界条件,但不介入每一次推理。AI自己跑,跑完用自动化测试卡门槛,人只在异常触发时介入。
![]()
这听起来像甩锅,但数据支持这个判断。他们的 dogfooding 实验显示,当AI被明确要求自我标注可信度时,下游错误率显著下降——不是因为它更懂,是因为它更敢承认自己不懂。
从"修AI"到"修关系"
这篇报告的潜台词很刺耳:我们过去两年花在"对齐"(alignment,让AI符合人类意图)上的精力,可能用错了地方。不是让AI更像人,而是让AI更敢暴露自己的非人之处——它的确定性是演的,它的自信是统计拟合,它的"理解"是模式匹配。
Anthropic团队没有给出银弹。他们承认自我标注机制"不完美,跨会话不一致",但强调"可测量的改进"。这种措辞本身就很"边缘人":不承诺,不夸大,只陈述观测结果。
一个值得玩味的细节:这篇报告发布在Anthropic官方博客,但实验对象包括自家Claude和两家竞品。这种"连自己一起测"的姿态,在AI公司的公关话术里并不常见。是真透明,还是另一种层面的可信度表演?
读者可以自己判断。但至少,他们放出了具体数字——0.70和0.30——而不是"显著提升""大幅优化"这类黑话。
如果AI的诚实度可以通过一句提示词调整,那过去两年我们到底在优化什么?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.