网易首页 > 网易号 > 正文 申请入驻

宾大实验:92%的人把ChatGPT答案当真理,哪怕它在瞎编

0
分享至


去年10月,BBC测了6个主流AI聊天机器人,让它们回答100个事实性问题。结果?错误率45%。换句话说,你问AI两个问题,它至少瞎答一个。

但用户似乎没把这当回事。宾夕法尼亚大学Steven Shaw和Gideon Nave的最新研究发现,人们不仅信AI,而且即使AI明显在胡说,照样照单全收

实验设计:给AI"下毒"看人类反应

研究团队设计了一套精巧的实验。359名参与者被要求回答推理和知识类题目,ChatGPT的使用是可选的。超过一半人主动选择了AI辅助——这本身不意外。

真正的陷阱藏在实验组里。研究者故意让ChatGPT给出错误答案,这些答案看起来合理,实则漏洞百出。比如逻辑题里的因果倒置,或者常识题里的张冠李戴。

结果让研究者自己都愣了一下:AI答对时,92.7%的参与者听从建议;AI答错时,79.8%的人依然照做。四舍五入,五个人里有四个被AI带沟里。

Shaw把这种现象称为「认知投降」(cognitive surrender)。不是用户没能力判断,而是他们主动把思考权外包给了机器。「我们外包过记忆、外包过计算,现在轮到外包思考本身了。」他在播客里这样描述。


confidence悖论:越错越自信

更诡异的是用户的心理状态。实验追踪了参与者的confidence水平,发现那些采纳错误AI答案的人,反而比独立思考者更笃定。

「即使处于认知投降状态,人们采纳这些答案后,对自己的判断更有信心。」Shaw的解释带着研究者特有的克制,但数据背后的图景足够刺眼——AI不仅替代了思考,还伪造了思考的快感

这让我想起早期导航软件的用户行为。有人明明看到前面是死胡同,还是跟着语音指令一头扎进去,然后怪地图不准。区别在于,导航出错你能立刻感知,AI出错往往悄无声息。

45%错误率 vs 80%服从率:中间差了什么

BBC那个45%的错误率数据,和宾大实验的80%服从率,搁在一起看像个冷笑话。用户不是不知道AI会错,BBC的报道铺天盖地;他们是在使用的瞬间,把这条常识忘了个干净

研究者认为,问题出在交互设计的「无缝感」上。ChatGPT的界面太像真人对话,输出格式太像权威文本,以至于用户的大脑自动切换到了「接收模式」而非「审视模式」。这不是技术缺陷,是产品成功带来的副作用。


Shaw和Nave的实验还测试了一个变量:当明确告知AI可能出错时,服从率会不会下降?答案是会的,但降幅有限。知道有风险,和在使用时保持警惕,是两码事。

一个产品经理的观察

作为从PM转行的内容从业者,我对这类研究有职业病式的敏感。ChatGPT的产品设计里有个细节:它的回答总是完整、流畅、带总结性陈词。人类写东西会卡壳、会自我纠正、会用「大概」「可能」留余地,AI的输出则像一份盖了章的说明书。

这种「确定性幻觉」是工程优化的结果。OpenAI的RLHF(基于人类反馈的强化学习)训练模型生成更「有帮助」的回答,而人类评分员普遍认为,自信的回答更有帮助。

于是我们得到了一个悖论:AI被训练得越像专家,用户就越容易放弃自己的判断。产品团队追求的用户黏性,在认知层面成了单行道。

宾大研究的样本量不算大,359人,集中在英语用户群体。但实验设计的严谨性让它很难被轻易反驳——研究者控制了题目难度、错误类型、呈现方式等多个变量,「认知投降」效应依然稳健。

Shaw在播客末尾提到一个未被验证的猜想:长期使用AI辅助决策的人,其独立推理能力是否会退化?目前还没有纵向研究跟进,但现有的心理学文献支持这种担忧。批判性思维像肌肉,不用就萎缩。

实验结束后,研究团队给所有参与者发了 debriefing 邮件,解释了实验的真实目的和被操纵的AI回答。Shaw说,最让他印象深刻的反馈来自一位参与者:「我现在才知道自己刚才那么轻信,有点后怕。」

如果让你回顾过去一周用AI辅助做的决定,你能确定其中哪些经过了独立验证,哪些只是被流畅的排版说服了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这俩人虽说是不违反法律吧,但是纯膈应人啊

这俩人虽说是不违反法律吧,但是纯膈应人啊

岁月有情1314
2026-03-30 14:37:46
齐达内早看穿了一切!从被狂嘘到皇马非卖品,琼阿梅尼打脸全场

齐达内早看穿了一切!从被狂嘘到皇马非卖品,琼阿梅尼打脸全场

仰卧撑FTUer
2026-03-31 09:45:06
两岸统一为什么迫在眉睫?

两岸统一为什么迫在眉睫?

心中的麦田
2026-03-04 20:12:08
突变!原油直线大跳水!特朗普最新发声,事关美伊冲突、霍尔木兹海峡!

突变!原油直线大跳水!特朗普最新发声,事关美伊冲突、霍尔木兹海峡!

证券时报e公司
2026-03-31 10:11:05
我月薪8万妻子却总和岳父岳母骂我没本事,说我月薪才2800

我月薪8万妻子却总和岳父岳母骂我没本事,说我月薪才2800

小秋情感说
2026-03-31 09:07:32
法尔胜股价创新高

法尔胜股价创新高

每日经济新闻
2026-03-31 09:54:04
张雪回应禁止新手买820RR摩托车:我希望少死几个人

张雪回应禁止新手买820RR摩托车:我希望少死几个人

IT之家
2026-03-31 11:28:08
华北地区高校2026年预算:北京工业大学66.47亿居首、太原理工第3

华北地区高校2026年预算:北京工业大学66.47亿居首、太原理工第3

手工制作阿爱
2026-03-31 13:57:28
广州机场大面积延误,深圳机场 多航班备降

广州机场大面积延误,深圳机场 多航班备降

每日经济新闻
2026-03-30 14:42:30
伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

青途历史
2026-03-30 10:26:03
明天农历二月十二,别忘“吃二样,做一事,忌一事”,添喜添福气

明天农历二月十二,别忘“吃二样,做一事,忌一事”,添喜添福气

雪峰儿
2026-03-29 05:33:19
没有三两三,哪敢这么穿

没有三两三,哪敢这么穿

独角showing
2026-03-15 21:32:11
30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

苏格拉高
2026-03-30 07:40:12
拟10股派38元,25万股民嗨了 美的440亿元利润,回购加分红全还给股东!

拟10股派38元,25万股民嗨了 美的440亿元利润,回购加分红全还给股东!

红星新闻
2026-03-31 13:27:12
香江马拉松,48岁黄晓明秒了45岁黄宗泽,才知清爽和油腻的区别

香江马拉松,48岁黄晓明秒了45岁黄宗泽,才知清爽和油腻的区别

大铁猫娱乐
2026-03-30 12:30:03
75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

人间百态大全
2026-03-29 06:35:03
根据历史规律,中国极有可能成为地球上最后一个超级大国

根据历史规律,中国极有可能成为地球上最后一个超级大国

阅微札记
2026-03-31 10:02:28
CCTV5直播!3支国足出战:邵佳一率队冲2连胜,U23战越南剑指冠军

CCTV5直播!3支国足出战:邵佳一率队冲2连胜,U23战越南剑指冠军

球场没跑道
2026-03-30 15:39:58
RAC1:巴萨将向莱万提供一份低薪合同,头号目标是阿尔瓦雷斯

RAC1:巴萨将向莱万提供一份低薪合同,头号目标是阿尔瓦雷斯

懂球帝
2026-03-31 05:50:27
德国外长当着全世界的面,一句话把桌子掀了:

德国外长当着全世界的面,一句话把桌子掀了:

果妈聊娱乐
2026-03-31 14:32:14
2026-03-31 15:15:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
510文章数 5关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

家居
亲子
房产
健康
军事航空

家居要闻

新婚爱巢 甜蜜情趣拉满

亲子要闻

辛苦考上幼师,幼儿园没了

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版