网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

宾大实验：92%的人把ChatGPT答案当真理，哪怕它在瞎编

2026-03-30 14:16:00　来源: 算力游侠

北京举报

0

分享至

去年10月，BBC测了6个主流AI聊天机器人，让它们回答100个事实性问题。结果？错误率45%。换句话说，你问AI两个问题，它至少瞎答一个。

但用户似乎没把这当回事。宾夕法尼亚大学Steven Shaw和Gideon Nave的最新研究发现，人们不仅信AI，而且即使AI明显在胡说，照样照单全收。

实验设计：给AI"下毒"看人类反应

研究团队设计了一套精巧的实验。359名参与者被要求回答推理和知识类题目，ChatGPT的使用是可选的。超过一半人主动选择了AI辅助——这本身不意外。

真正的陷阱藏在实验组里。研究者故意让ChatGPT给出错误答案，这些答案看起来合理，实则漏洞百出。比如逻辑题里的因果倒置，或者常识题里的张冠李戴。

结果让研究者自己都愣了一下：AI答对时，92.7%的参与者听从建议；AI答错时，79.8%的人依然照做。四舍五入，五个人里有四个被AI带沟里。

Shaw把这种现象称为「认知投降」（cognitive surrender）。不是用户没能力判断，而是他们主动把思考权外包给了机器。「我们外包过记忆、外包过计算，现在轮到外包思考本身了。」他在播客里这样描述。

confidence悖论：越错越自信

更诡异的是用户的心理状态。实验追踪了参与者的confidence水平，发现那些采纳错误AI答案的人，反而比独立思考者更笃定。

「即使处于认知投降状态，人们采纳这些答案后，对自己的判断更有信心。」Shaw的解释带着研究者特有的克制，但数据背后的图景足够刺眼——AI不仅替代了思考，还伪造了思考的快感。

这让我想起早期导航软件的用户行为。有人明明看到前面是死胡同，还是跟着语音指令一头扎进去，然后怪地图不准。区别在于，导航出错你能立刻感知，AI出错往往悄无声息。

45%错误率 vs 80%服从率：中间差了什么

BBC那个45%的错误率数据，和宾大实验的80%服从率，搁在一起看像个冷笑话。用户不是不知道AI会错，BBC的报道铺天盖地；他们是在使用的瞬间，把这条常识忘了个干净。

研究者认为，问题出在交互设计的「无缝感」上。ChatGPT的界面太像真人对话，输出格式太像权威文本，以至于用户的大脑自动切换到了「接收模式」而非「审视模式」。这不是技术缺陷，是产品成功带来的副作用。

Shaw和Nave的实验还测试了一个变量：当明确告知AI可能出错时，服从率会不会下降？答案是会的，但降幅有限。知道有风险，和在使用时保持警惕，是两码事。

一个产品经理的观察

作为从PM转行的内容从业者，我对这类研究有职业病式的敏感。ChatGPT的产品设计里有个细节：它的回答总是完整、流畅、带总结性陈词。人类写东西会卡壳、会自我纠正、会用「大概」「可能」留余地，AI的输出则像一份盖了章的说明书。

这种「确定性幻觉」是工程优化的结果。OpenAI的RLHF（基于人类反馈的强化学习）训练模型生成更「有帮助」的回答，而人类评分员普遍认为，自信的回答更有帮助。

于是我们得到了一个悖论：AI被训练得越像专家，用户就越容易放弃自己的判断。产品团队追求的用户黏性，在认知层面成了单行道。

宾大研究的样本量不算大，359人，集中在英语用户群体。但实验设计的严谨性让它很难被轻易反驳——研究者控制了题目难度、错误类型、呈现方式等多个变量，「认知投降」效应依然稳健。

Shaw在播客末尾提到一个未被验证的猜想：长期使用AI辅助决策的人，其独立推理能力是否会退化？目前还没有纵向研究跟进，但现有的心理学文献支持这种担忧。批判性思维像肌肉，不用就萎缩。

实验结束后，研究团队给所有参与者发了 debriefing 邮件，解释了实验的真实目的和被操纵的AI回答。Shaw说，最让他印象深刻的反馈来自一位参与者：「我现在才知道自己刚才那么轻信，有点后怕。」

如果让你回顾过去一周用AI辅助做的决定，你能确定其中哪些经过了独立验证，哪些只是被流畅的排版说服了？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

黑马AI横扫预测市场！预测未来胜率已超过人类

新智元 2026-03-30 09:36:49
0 跟贴 0
ChatGPT：再见「破折号」

机器之心Pro 2025-11-17 14:10:18
0 跟贴 0

推理成功率暴涨 30%！极佳视界发布全新世界模型GigaWorld-Policy

机器之心Pro 2026-03-30 13:27:50
0 跟贴 0

拒绝智能手机，炮轰ChatGPT，没有他就没有今天的互联网

DeepTech深科技 2025-12-26 18:07:26
29 跟贴 29
京东卷出新高度！硬刚复杂指令长时长、自由态数字人直播丝滑了

机器之心Pro 2026-03-31 14:13:44
0 跟贴 0

智能编码扎根生产级场景，阿里云系统化解题

钛媒体APP 2026-03-31 14:36:11
0 跟贴 0

千寻智能高阳团队提出 Point-VLA：视觉定位实现语言指令精准执行

机器之心Pro 2026-03-31 13:48:18
0 跟贴 0
机器人线下真机对线打PK！这届黑客松可太会玩了

量子位 2026-03-31 14:41:05
0 跟贴 0

11亿AI大单，百度拿下！

智东西 2026-03-31 14:36:20
0 跟贴 0
中东战火如何动摇“AI神话”？来看看全世界飙升的借贷成本吧

财联社 2026-03-31 14:09:23
0 跟贴 0
以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0
8个月前AI就知道他要杀人！ChatGPT员工争论了很久，选择沉默… 最后8个生命消失在这座小镇

英国那些事儿 2026-02-22 22:49:40
1753 跟贴 1753
程序员用ChatGPT给狗设计疫苗，肿瘤真的缩小了，科学家都服了

DeepTech深科技 2026-03-15 18:11:33
47 跟贴 47
「ChatGPT说我在浪费生命，但它错了」，WhatsApp前产品掌门人的清醒反击

36氪 2025-11-27 11:59:07
0 跟贴 0
突破百亿元产值后，“具身智能的ChatGPT时刻”何时到来？银河通用等头部玩家激辩共识与焦虑

每日经济新闻 2026-03-30 15:56:03
0 跟贴 0
原来还可以这样推理啊

大美剪辑 2026-03-29 09:29:58
1 跟贴 1
从死记硬背到举一反三，北师大柳昀哲团队Cell论文：揭开人类推理和学习能力随年龄增长而跃迁的神经机制

生物世界 2026-03-30 12:23:07
0 跟贴 0
“陪嫁3套房变2套，婆婆决策引争议，老公一句话令婆婆傻眼！”

磨自明 2026-03-29 07:18:53
1 跟贴 1
当IT男决定不让他狗去死：ChatGPT全程辅助寻找靶点设计癌症疫苗！奇迹出现了

英国那些事儿 2026-03-15 23:05:04
0 跟贴 0
媒体：郑丽文受邀访大陆核心原因从当前局势看不难猜

看看新闻Knews 2026-03-30 22:31:04
2164 跟贴 2164
“直接崩了，一天掉了一百多元！”有人疯狂抛售，国际巨头接连发布新技术……格局将被改变？

都市快报橙柿互动 2026-03-29 12:26:05
1904 跟贴 1904
今天的题目是：《张雪峰留给普通人家的孩子八句话》

家居老余 2026-03-27 02:34:02
0 跟贴 0
92%训练数据是英语，大模型把40亿人挡在门外

硬核玩家2哈 2026-03-31 07:16:35
0 跟贴 0
核动力全电推进，005航母电磁弹射六代机遐想，模型跟虫子似的！

风俱话生活 2026-03-30 11:23:49
0 跟贴 0
113瓜六写作能力很强可无奈她看错题目押错题

美姐电影 2026-03-27 17:34:33
1 跟贴 1
美媒质问：这场战争到底给美国带�

新浪财经 2026-03-31 14:04:57
0 跟贴 0
江苏一老太太花24块钱买卤菜，顺走40多块钱的大肠，偷第二次时被发现，店主：当时没反应过来东西丢了，等老人走后清点了下才明白

洪观新闻 2026-03-30 15:41:26
360 跟贴 360
印度又官宣自研五代机！17年就憋出个模型，能赶超中美俄吗？

浩然简史 2026-03-28 16:39:42
0 跟贴 0
服务行业考虑用户感受，不喜欢可以不做，这样式的员工我打过3个

酷酷的小生活 2026-03-29 08:44:47
0 跟贴 0
山东设立中小学春秋假期:原则上每次3天，安排在每学期期中前后

齐鲁壹点 2026-03-30 20:46:10
816 跟贴 816
1911 模型枪欣赏

飞翔大白鲸 2026-03-29 09:56:29
0 跟贴 0
曾喊出“用中国制造干掉日本制造” 张雪机车做到了

澎湃新闻 2026-03-31 08:23:31
23 跟贴 23
孙少军：问界M6订单超预期，非华为用户占比超过50%！

风蛍月缓缓 2026-03-29 05:08:39
1 跟贴 1
1847五年级提高：孩子看到题目就懵了，其实很简单，转化之后秒懂

我服子佩 2026-03-29 15:51:16
1 跟贴 1
6月起，网约车司机超8小时长时间工作将结束

半岛官网 2026-03-31 09:30:28
367 跟贴 367
为了证明灵魂是否真实存在，科学家做实验却发现了可怕的东西

易飞电影1 2026-03-28 23:13:17
0 跟贴 0
约80层楼高的神女大扶梯，把巫山县城推向了台前

新京报 2026-03-30 16:45:46
214 跟贴 214
三年级的竞赛题目，难倒了不少尖子生啊

公考客栈店小二 2026-03-29 16:00:00
0 跟贴 0
文化会造就情感吗？（全文6800字）

黄先生斜杠青年 2026-03-31 10:54:38
0 跟贴 0
迷你汽油发动机模型

制造科技 2026-03-28 15:59:09
0 跟贴 0

这俩人虽说是不违反法律吧，但是纯膈应人啊

这俩人虽说是不违反法律吧，但是纯膈应人啊

岁月有情1314

2026-03-30 14:37:46

齐达内早看穿了一切！从被狂嘘到皇马非卖品，琼阿梅尼打脸全场

齐达内早看穿了一切！从被狂嘘到皇马非卖品，琼阿梅尼打脸全场

仰卧撑FTUer

2026-03-31 09:45:06

两岸统一为什么迫在眉睫？

心中的麦田

2026-03-04 20:12:08

突变！原油直线大跳水！特朗普最新发声，事关美伊冲突、霍尔木兹海峡！

突变！原油直线大跳水！特朗普最新发声，事关美伊冲突、霍尔木兹海峡！

证券时报e公司

2026-03-31 10:11:05

我月薪8万妻子却总和岳父岳母骂我没本事，说我月薪才2800

我月薪8万妻子却总和岳父岳母骂我没本事，说我月薪才2800

小秋情感说

2026-03-31 09:07:32

法尔胜股价创新高

每日经济新闻

2026-03-31 09:54:04

张雪回应禁止新手买820RR摩托车：我希望少死几个人

张雪回应禁止新手买820RR摩托车：我希望少死几个人

IT之家

2026-03-31 11:28:08

华北地区高校2026年预算：北京工业大学66.47亿居首、太原理工第3

华北地区高校2026年预算：北京工业大学66.47亿居首、太原理工第3

手工制作阿爱

2026-03-31 13:57:28

广州机场大面积延误，深圳机场多航班备降

广州机场大面积延误，深圳机场多航班备降

每日经济新闻

2026-03-30 14:42:30

伊朗大捷！用一场标志性大胜，打出美国 81 年最大战损的记录？

伊朗大捷！用一场标志性大胜，打出美国 81 年最大战损的记录？

青途历史

2026-03-30 10:26:03

明天农历二月十二，别忘“吃二样，做一事，忌一事”，添喜添福气

明天农历二月十二，别忘“吃二样，做一事，忌一事”，添喜添福气

雪峰儿

2026-03-29 05:33:19

没有三两三，哪敢这么穿

独角showing

2026-03-15 21:32:11

30分钟锁定，误差1米：伊朗二号人物是怎么被精准斩首的？

30分钟锁定，误差1米：伊朗二号人物是怎么被精准斩首的？

苏格拉高

2026-03-30 07:40:12

拟10股派38元，25万股民嗨了美的440亿元利润，回购加分红全还给股东！

拟10股派38元，25万股民嗨了美的440亿元利润，回购加分红全还给股东！

红星新闻

2026-03-31 13:27:12

香江马拉松，48岁黄晓明秒了45岁黄宗泽，才知清爽和油腻的区别

香江马拉松，48岁黄晓明秒了45岁黄宗泽，才知清爽和油腻的区别

大铁猫娱乐

2026-03-30 12:30:03

75年奶奶收留了一对落难姐弟，多年后一位年轻军官找上了门

75年奶奶收留了一对落难姐弟，多年后一位年轻军官找上了门

人间百态大全

2026-03-29 06:35:03

根据历史规律，中国极有可能成为地球上最后一个超级大国

根据历史规律，中国极有可能成为地球上最后一个超级大国

阅微札记

2026-03-31 10:02:28

CCTV5直播！3支国足出战：邵佳一率队冲2连胜，U23战越南剑指冠军

CCTV5直播！3支国足出战：邵佳一率队冲2连胜，U23战越南剑指冠军

球场没跑道

2026-03-30 15:39:58

RAC1：巴萨将向莱万提供一份低薪合同，头号目标是阿尔瓦雷斯

RAC1：巴萨将向莱万提供一份低薪合同，头号目标是阿尔瓦雷斯

懂球帝

2026-03-31 05:50:27

德国外长当着全世界的面，一句话把桌子掀了：

德国外长当着全世界的面，一句话把桌子掀了：

果妈聊娱乐

2026-03-31 14:32:14

游走在API与报错之间，用魔法（AI）打败魔法的非硬核玩家。

510文章数 5关注度

往期回顾全部

科技要闻

尚未正式宣发，国行苹果AI半夜"意外闪现"

头条要闻

美方：伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方：伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工，用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎：瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

房产

健康

军事航空

家居要闻

新婚爱巢甜蜜情趣拉满

亲子要闻

辛苦考上幼师，幼儿园没了

房产要闻

14亿！电竞巨头出手，海棠湾“超级运动综合体”来了！

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普：即使霍尔木兹海峡仍关闭也愿意结束战争

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版