网易首页 > 网易号 > 正文 申请入驻

同一问题答5真5假!ChatGPT一致性差引决策担忧

0
分享至

华盛顿州立大学教授梅苏特·齐切克(Mesut Cicek)及其研究团队,用科学论文中的假设反复测试ChatGPT,目的是验证AI能否正确判断这些假设是否有研究支持——即判断真假。

团队共评估了700多个假设,每个假设重复提问10次以测试回答的一致性。



一、准确率看似可观,实际仅略胜随机猜测

2024年首次测试中,ChatGPT的正确率为76.5%;2025年跟进测试时,准确率小幅提升至80%。但扣除随机猜测的概率后,结果就没那么亮眼了:AI的表现仅比随机猜测高出约60%,相当于勉强及格的水平,远达不到可靠标准。

AI在识别错误假设时表现最差,正确率仅16.4%;同时存在明显的一致性问题:即使完全相同的问题提问10次,ChatGPT给出一致答案的情况仅约73%。

二、同一问题反复横跳:一致性缺失引担忧

齐切克是华盛顿州立大学卡森商学院营销与国际商务系副教授,也是该研究的第一作者,他指出:“我们不仅关注准确率,更在意不一致性——如果你反复问同一个问题,得到的答案却不一样。”

“我们用完全相同的提问重复10次,AI一会儿说‘真’,一会儿说‘假’,甚至出现5次真、5次假的情况。”

三、流利≠理解:AI缺乏真正的概念认知

这项发表于《罗格斯商业评论》的研究强调,依赖AI做重要决策需格外谨慎,尤其是涉及复杂推理的场景。生成式AI能产出流畅可信的语言,但尚未具备人类级别的概念理解能力。

齐切克认为,这些结果表明,能真正“思考”的通用人工智能(AGI)可能比预期更遥远:“当前的AI工具不像人类那样理解世界——它们没有‘大脑’,只是记忆信息,能给出一些表面见解,但并不理解自己在说什么。”

四、研究设计:聚焦复杂商业假设测试

齐切克与南伊利诺伊大学的塞文居尔·乌卢(Sevincgul Ulu)、罗格斯大学的坎·乌斯莱(Can Uslay)、东北大学的凯特·卡尼乌奇纳(Kate Karniouchina)合作完成了这项研究。

团队选取了2021年以来商业期刊发表的719个科学假设,这些假设通常涉及复杂因素,需要细致推理才能简化为“真/假”判断。研究分别在2024年测试了免费版ChatGPT-3.5,2025年测试了更新版ChatGPT-5 mini,两者表现相近:扣除50%的随机正确率后,AI的有效表现仅比随机猜测高出约60%。

五、专家警示:AI决策需验证,不可盲目依赖

研究人员建议企业领导者,对AI生成的信息要保持怀疑并验证,同时需开展培训以明确AI的能力边界。齐切克提到,其他AI工具的类似测试也得到了相似结果,且2024年一项全国调查显示,消费者对主打AI营销的产品购买意愿更低。

“永远保持怀疑,我并不反对AI,自己也在使用,但必须非常谨慎。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗称摧毁中东地区两处空军基地及美以机群机库

伊朗称摧毁中东地区两处空军基地及美以机群机库

财联社
2026-03-22 00:58:15
547.9万博主被封禁,警惕1644史观,统一台湾,年度大片要上了

547.9万博主被封禁,警惕1644史观,统一台湾,年度大片要上了

电影票房预告片
2026-03-20 23:50:08
男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

男子蹭饭260顿后续!坚持硬刚比亚迪,更多恶心事曝光,家人遭殃

青橘罐头
2026-03-21 07:25:22
胡塞领导人:我们参战只打侵略者,中国不跟美以合污我们绝不为难

胡塞领导人:我们参战只打侵略者,中国不跟美以合污我们绝不为难

倾世璃歌
2026-03-22 06:38:35
荒唐不可怕,可怕的是荒唐了几十年,没人问一句“凭什么”!

荒唐不可怕,可怕的是荒唐了几十年,没人问一句“凭什么”!

阿离家居
2026-03-20 04:49:00
阿里史上最差财报:净利润暴跌67%,外卖单季亏231亿成“拖油瓶”

阿里史上最差财报:净利润暴跌67%,外卖单季亏231亿成“拖油瓶”

流苏晚晴
2026-03-21 15:41:26
中国排协官宣!15人集训名单公布,袁志接棒赵勇,江苏女排大赢家

中国排协官宣!15人集训名单公布,袁志接棒赵勇,江苏女排大赢家

跑者排球视角
2026-03-21 11:00:25
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
大叫“斩死你”!突然传来枪声!凌晨,香港警员开5枪制服一男子

大叫“斩死你”!突然传来枪声!凌晨,香港警员开5枪制服一男子

南方都市报
2026-03-21 20:39:05
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
火箭伊森三分23连铁!亲妈坐不住了,急请名师救火

火箭伊森三分23连铁!亲妈坐不住了,急请名师救火

仰卧撑FTUer
2026-03-22 08:31:03
“雷军说确实说错了”,顶流的代价!

“雷军说确实说错了”,顶流的代价!

品牌头版
2026-03-22 08:14:25
原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

日落于西
2026-03-20 12:23:08
外媒:美国一男子五天内在纽约费尽心思抢劫六家银行,最终仅得手605美元

外媒:美国一男子五天内在纽约费尽心思抢劫六家银行,最终仅得手605美元

环球网资讯
2026-03-21 15:58:49
金价狂泻200元!50克手镯一夜蒸发几万块,最无情的“杀猪盘”?

金价狂泻200元!50克手镯一夜蒸发几万块,最无情的“杀猪盘”?

王二哥老搞笑
2026-03-21 18:56:42
瓜迪奥拉:我们即将迎来绽放,还差什么?我知道,但不告诉你

瓜迪奥拉:我们即将迎来绽放,还差什么?我知道,但不告诉你

懂球帝
2026-03-22 07:29:10
超刺激川渝德比!媒体人热议:傲慢豪门遭打击,赛季最精彩一战

超刺激川渝德比!媒体人热议:傲慢豪门遭打击,赛季最精彩一战

奥拜尔
2026-03-21 21:58:55
终于拍到同框!鹿晗关晓彤低调现身火锅店,一个细节让全网破防

终于拍到同框!鹿晗关晓彤低调现身火锅店,一个细节让全网破防

东方不败然多多
2026-03-21 19:41:05
那些觉得自己能在股市里赚钱的散户,一定要好好看完这期。

那些觉得自己能在股市里赚钱的散户,一定要好好看完这期。

流苏晚晴
2026-03-21 15:37:28
韩流天王Rain录综艺当众全脱光?吓坏队友

韩流天王Rain录综艺当众全脱光?吓坏队友

草莓解说体育
2026-03-20 18:32:07
2026-03-22 09:16:49
SENSORO升哲科技
SENSORO升哲科技
一家国际化的智能安全服务商
1364文章数 65关注度
往期回顾 全部

科技要闻

库克在华这四天,一场既定的市场秀

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

头条要闻

男子在壶口瀑布外拍视频喊"门口要钱"被投诉 景区回应

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

教育
旅游
亲子
房产
公开课

教育要闻

校长讲好五类故事,凝聚办学人心

旅游要闻

千亩杏林迎客来,济南南山柳埠街道解锁春日度假新玩法

亲子要闻

“锌”是聪明根!春天孩子多吃高锌菜,脑子灵、记性好、个头猛长

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版