Anthropic自曝AI黑箱：3家大模型写报告|推理|实验|上下文|新论文|anthropic

Anthropic自曝AI黑箱：3家大模型写报告

2026-03-30 14:45:10　来源: 算力游侠

北京举报

分享至

20个月，上百个生产系统，三家主流大模型——Claude、ChatGPT、Gemini。Anthropic工程师团队最近放出一组内部实验数据，把AI行业的遮羞布扯下来一角。

他们让三家AI各自写了一份关于自家产品的研究报告。结果荒诞得像一场行为艺术：逻辑一致性全部超过0.70，信源归因全部低于0.30。换句话说，AI们编故事编得滴水不漏，但问到"这话你从哪看的"，集体哑火。

这不是幻觉（hallucination，AI生成虚假内容）。这是更隐蔽的"可信度陷阱"——Anthropic团队给它起了个名字：「合理性情结」（plausibility complex）。

AI不是错了，是太会"看起来对"

大语言模型的训练目标从来不是"说真话"，而是"让人满意"。流畅、自信、结构工整——这些才是奖励函数里的硬通货。Anthropic工程师打了个比方：这就像一个学生被训练了十二年应试技巧，最后发现考试考的不是知识，是卷面整洁度。

他们在实验里反复观察到一个现象：AI"知道的"比它"说出来的"多。但输出机制被优化成了另一套逻辑——宁可给出一个漂亮的错误答案，也不暴露自己的不确定。

要市场分析？给你精确到小数点后两位的数字。要技术评估？甩出一堆权威感满满的结论。要趋势预测？未来五年的路线图都画好了。追问数据来源？开始车轱辘话循环。

行业主流把幻觉当bug修，补丁越打越多：RAG（检索增强生成，让AI先查资料再回答）、上下文缓存、精心设计的提示词工程。Anthropic团队试过全套方案，结论很悲观——你能控制输入，能评判输出，但推理过程本身是黑箱。

一个反直觉的发现：让AI"老实交代"反而有用

转机出现在他们换了个问法。不再追求答案正确，而是强制要求AI做「认知推理」（epistemic reasoning）——每句话必须标注：有依据？推出来的？猜的？

同样的任务，同样的三家模型，同样的底层能力。唯一变量是一份形式化规范：给自己的信心分级，给存疑的声明打标签。

结果：AI没有变聪明，但变诚实了。不确定的地方敢说了，没证据的地方不硬编了。这不是技术突破，是交互设计的胜利——你没法打开黑箱，但可以改变黑箱的激励结构。

Anthropic团队把这个思路推向了更激进的结论。他们观察到一个被忽视的模式：「人在回路」（human in the loop，每步都人工审核）在工程实践中根本跑不通。瓶颈不在算力，在人的注意力——20个月的迭代里，人工复核的队列永远排满，反馈延迟以天计，AI的上下文早就漂到下一个版本了。

真正 scalable 的方案是「人在边缘」（human at the edge）：让人类定义验收标准、设计验证工具、设定边界条件，但不介入每一次推理。AI自己跑，跑完用自动化测试卡门槛，人只在异常触发时介入。

这听起来像甩锅，但数据支持这个判断。他们的 dogfooding 实验显示，当AI被明确要求自我标注可信度时，下游错误率显著下降——不是因为它更懂，是因为它更敢承认自己不懂。

从"修AI"到"修关系"

这篇报告的潜台词很刺耳：我们过去两年花在"对齐"（alignment，让AI符合人类意图）上的精力，可能用错了地方。不是让AI更像人，而是让AI更敢暴露自己的非人之处——它的确定性是演的，它的自信是统计拟合，它的"理解"是模式匹配。

Anthropic团队没有给出银弹。他们承认自我标注机制"不完美，跨会话不一致"，但强调"可测量的改进"。这种措辞本身就很"边缘人"：不承诺，不夸大，只陈述观测结果。

一个值得玩味的细节：这篇报告发布在Anthropic官方博客，但实验对象包括自家Claude和两家竞品。这种"连自己一起测"的姿态，在AI公司的公关话术里并不常见。是真透明，还是另一种层面的可信度表演？

读者可以自己判断。但至少，他们放出了具体数字——0.70和0.30——而不是"显著提升""大幅优化"这类黑话。

如果AI的诚实度可以通过一句提示词调整，那过去两年我们到底在优化什么？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic自曝AI黑箱：3家大模型写报告

AI不是错了，是太会"看起来对"

一个反直觉的发现：让AI"老实交代"反而有用

从"修AI"到"修关系"

造出地表最强AI，却死活不给你用！

特朗普认为北约未通过“考验” 将考虑“退群”

特朗普认为北约未通过“考验” 将考虑“退群”

40岁，但实力倒退12年

侯佩岑全家悉尼度假，一家四口幸福满溢

天津海河乳业回应直播间涉黄

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

自在恣意 侘寂风别墅

跟着歌声游安徽，听古村回响

正式动工！珠城马场地块，签约华尔道夫!

20万级满配华为全家桶华境S是懂家庭的大六座

自在恣意侘寂风别墅