网易首页 > 网易号 > 正文 申请入驻

“我不知道”比“一本正经地胡说八道”更值钱!清华AI幻觉报告

0
分享至

有没有发现,你问AI一个问题,它给出的答案听起来头头是道,但一查资料发现——引用的论文是假的、提到的法规是编的、连页码都不存在?

更可怕的是,有些机构已经开始用AI回答公共服务咨询、辅助医疗诊断、撰写法律文书了……

清华大学这份《2026年AI幻觉深度研究报告》,看完我只想说:我们可能一直误解了AI的“错误”——那不是偶然的“口误”,而是它“天生如此”的“系统 bug”。

一、幻觉不是“出错”,是“基因”

报告开篇就引用了NIST(美国国家标准与技术研究院)的定义:AI的“幻觉”不叫hallucination,叫confabulation——这个词在医学上指“患者无意识地用虚构内容填补记忆空白”。AI不是在“撒谎”,它只是“不知道自己不知道”。

关键洞察有三条:

  1. 幻觉是“生成—采信—执行”链条上的系统性风险,不是单点准确率问题。一句错话被用户当真、被团队执行,后果才可怕。
  2. 基准分数无法替代场景化评估。一个模型在榜单上99%准确,放到医疗场景里,那1%的错可能直接误诊。
  3. 真正有效的方案不是“一个万能技术”,而是一套复合治理栈:检索锚定、拒答机制、人工复核、日志监测、责任制度,缺一不可。

二、六类幻觉,你遇到过几种?

报告把幻觉细分成六种,不是学术堆砌,而是为了“不同错误配不同护栏”:



三、为什么“高可信品牌”反而更危险?

报告有一个非常反直觉的结论:公共服务、医院、高校、金融机构这类“权威界面”,比普通聊天场景更容易放大幻觉风险。

原因是:用户会因为信任你的品牌,而低估系统的失真风险。

  • GOV.UK Chat(英国政府官网的AI问答工具)用户满意度不低,但官方观察到若干幻觉案例后,专门提醒:官方的可信度,会让用户过度信任AI的输出,放弃自行核验。
  • 同理,当一家三甲医院、一家上市银行、一所985高校推出AI助手时,用户天然会把它当成“官方说法”。

结论:权威界面不是风险缓冲器,而是风险放大器。

四、高风险场景的“两难”:压低幻觉,可能抬高遗漏

MHRA(英国药品和健康产品管理局)的案例揭示了一个核心权衡:

  • 加更严格的护栏(比如只允许模型回答有明确来源的问题),可以显著降低重大幻觉。
  • 但代价是:拒答率上升、遗漏率上升、信息不全率上升。

在医疗场景,这就变成了一个“两难”:

  • 如果系统频繁说“我不知道”,临床人员可能失去效率,甚至错过关键提示。
  • 如果系统为了显得全面而继续补全,则可能直接误导临床决策。

因此,高风险场景的工程设计,必须把“遗漏风险”和“幻觉风险”放在同一张决策表上。

五、给组织的行动框架:六层治理栈

报告最后给出了一个非常实操的框架,不是“技术方案”,而是“组织工程”:



六、五个原创概念,值得记住

报告提炼了五个“压缩式”概念,便于组织内部沟通:

  1. 概率真相陷阱:把“最像真的输出”误认为“最接近真的答案”。
  2. 引用幻影链:伪造的引用,以正规格式伪装成已核验知识,在组织中持续传播。
  3. 低置信高伤害区:模型自己都没把握,组织却让它介入高后果任务。
  4. 遗漏—幻觉跷跷板:压低幻觉率,可能抬高遗漏率;反之亦然。
  5. 责任折返门:表面有人工复核,但复核者无时间、无标准、无否决权,只是机械点确认。

总结与启示

一句话总结:AI幻觉不是一个“技术问题”,而是一个“组织治理问题”。

对技术团队:

  • 不要追求“零幻觉”——那是不可能的。
  • 追求“可识别、可约束、可追责、可持续优化”。
  • 在高风险场景,设计“拒答机制”比提升准确率更重要。

对管理层:

  • 不要把AI当“万能回答机”,要画任务风险地图。
  • 明确哪些任务“不能上生成式AI”,哪些任务“只能辅助”。
  • 人工复核必须有意义、可抽检、可追责,否则就是“责任表演”。

对政府/公共机构/医疗机构:

  • 品牌可信度会放大幻觉风险,用户会高估你的AI。
  • 必须设置显性护栏:明确告知用户“这是AI生成内容,请核实来源”。

真正有竞争力的组织,不是让AI看起来无所不知,而是让它在不知道时停下来、在高风险时退后一步。

报告节选





































特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

墨策史
2026-06-27 00:50:07
692、668、644,贵州都匀一中三胞胎兄弟高考分数各相差24分,父亲:没上过培训班,高中三年没有用过电子产品

692、668、644,贵州都匀一中三胞胎兄弟高考分数各相差24分,父亲:没上过培训班,高中三年没有用过电子产品

极目新闻
2026-06-26 16:57:21
江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

贴小君
2026-06-27 01:13:40
1场0-5,让韩国心灰意冷!比起世界杯快淘汰,难受的是身心受折磨

1场0-5,让韩国心灰意冷!比起世界杯快淘汰,难受的是身心受折磨

侃球熊弟
2026-06-27 05:42:51
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
万恶的旧社会?15张1944年照片,这就是真实的“旧社会”

万恶的旧社会?15张1944年照片,这就是真实的“旧社会”

北海史记
2026-06-25 00:31:54
马頔怎么翻车了?

马頔怎么翻车了?

娱乐圈笔娱君
2026-06-26 16:25:29
WTT美国大满贯:国乒开门红!直拍名将首秀3-0胜印度选手

WTT美国大满贯:国乒开门红!直拍名将首秀3-0胜印度选手

全言作品
2026-06-27 04:05:11
还得是泰王!厌弃90后欧拉弄宠80后新妃,神似冰冰很美丽

还得是泰王!厌弃90后欧拉弄宠80后新妃,神似冰冰很美丽

小鱼爱鱼乐
2026-06-26 20:51:10
阿根廷32强对手将诞生:4选1!有可能踢西班牙,梅西冲世界杯20球

阿根廷32强对手将诞生:4选1!有可能踢西班牙,梅西冲世界杯20球

小火箭爱体育
2026-06-26 15:48:08
你可知道这位被枪决的高考状元

你可知道这位被枪决的高考状元

年代回忆
2026-06-26 22:51:15
哲凯赖什:裁判的执法令人沮丧,虽然没赢但是晋级感觉不错

哲凯赖什:裁判的执法令人沮丧,虽然没赢但是晋级感觉不错

懂球帝
2026-06-26 12:02:21
德国经济部长:荷兰接管安世没有任何错,我认为这个决定非常明智

德国经济部长:荷兰接管安世没有任何错,我认为这个决定非常明智

史行途
2026-06-27 03:07:50
离开11年后,央视名嘴低调隐居北京,如今二婚21年无儿无女很潇洒

离开11年后,央视名嘴低调隐居北京,如今二婚21年无儿无女很潇洒

素衣读史
2026-06-25 21:56:52
3-2!世界杯神剧情:98分钟压哨绝杀 0分垫底队终结领头羊2连胜

3-2!世界杯神剧情:98分钟压哨绝杀 0分垫底队终结领头羊2连胜

狍子歪解体坛
2026-06-26 12:30:31
金球先生,登贝莱是世界杯第四位戴帽的当届金球奖得主

金球先生,登贝莱是世界杯第四位戴帽的当届金球奖得主

懂球帝
2026-06-27 04:35:47
谢娜估计以后不会再开演唱会了, 原因很简单, 不是因为没有人买票

谢娜估计以后不会再开演唱会了, 原因很简单, 不是因为没有人买票

小椰的奶奶
2026-06-26 20:38:48
C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

喜欢历史的阿繁
2026-06-25 17:35:55
中巴爆发争端!当众抹黑中方扣船,我大使斩钉截铁,不许撕毁契约

中巴爆发争端!当众抹黑中方扣船,我大使斩钉截铁,不许撕毁契约

黑翼天使
2026-06-27 00:32:40
替女上司挡灾缝15针,第二天被开除,收拾东西时她突然叫住我

替女上司挡灾缝15针,第二天被开除,收拾东西时她突然叫住我

千秋文化
2026-06-23 20:03:54
2026-06-27 06:12:49
三个皮匠报告
三个皮匠报告
专业的行业报告分享平台
898文章数 31关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

时尚
艺术
教育
数码
家居

殡葬专业,我可以干一辈子

艺术要闻

莫兰迪不多见的简约风景画!

教育要闻

广东头部前50名高中格局与生源分布

数码要闻

深夜突发!iPad/Mac全球大涨价,苹果成了AI受害者?

家居要闻

绿意盎然 自然之境

无障碍浏览 进入关怀版