网易首页 > 网易号 > 正文 申请入驻

为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分

0
分享至

在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。


▲概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”


▲学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天机器人更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

红星新闻记者 王雅林 实习记者 杨诗柔

编辑 邓旆光

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
依依向北风大结局:比乔正君惨,比王潇苦,他们两个才是最可悲的

依依向北风大结局:比乔正君惨,比王潇苦,他们两个才是最可悲的

阿废冷眼观察所
2025-11-03 08:19:21
莫斯科附近军用油管被炸!俄罗斯老人涉嫌“诋毁俄军”,绝不屈服

莫斯科附近军用油管被炸!俄罗斯老人涉嫌“诋毁俄军”,绝不屈服

鹰眼Defence
2025-11-02 16:03:37
5胜2负排第3,湖人有4个变化,最强组合基本确认,雷迪克也涨球了

5胜2负排第3,湖人有4个变化,最强组合基本确认,雷迪克也涨球了

体坛大辣椒
2025-11-03 13:40:19
“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

懂球帝
2025-11-02 14:13:07
1968年,周总理签署命令逮捕周恩寿,7年后周恩寿出狱时说:他没错

1968年,周总理签署命令逮捕周恩寿,7年后周恩寿出狱时说:他没错

帝哥说史
2025-11-02 06:35:03
国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

国民党主席位置坐稳,郑丽文摊牌了:两岸若不能回归,其他都免谈

娱乐小可爱蛙
2025-11-03 11:32:04
王诗龄何超莲同框,16岁妹妹气场全开,赌王千金这次真被比下去了

王诗龄何超莲同框,16岁妹妹气场全开,赌王千金这次真被比下去了

柠檬有娱乐
2025-11-03 11:32:57
马斯克,最新预言!

马斯克,最新预言!

每日经济新闻
2025-11-02 14:32:04
厦门女士存了1500万,去取钱时被告知剩50元,警方的话让女子懵了

厦门女士存了1500万,去取钱时被告知剩50元,警方的话让女子懵了

牛魔王与芭蕉扇
2025-03-31 15:49:22
57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

57万元/平方米!深圳一别墅被神秘富豪3.65亿元“捡漏”拍下,刷新全国纪录

每日经济新闻
2025-11-02 09:13:03
4-6!斯诺克再爆冷门:世界冠军首轮出局,丁俊晖赵心童齐头并进

4-6!斯诺克再爆冷门:世界冠军首轮出局,丁俊晖赵心童齐头并进

观察鉴娱
2025-11-03 09:56:41
太离谱了!美国情报表示霹雳-15射程远是因为华为窃取AI技术

太离谱了!美国情报表示霹雳-15射程远是因为华为窃取AI技术

朔方瞭望
2025-11-03 11:30:53
零跑破7万,蔚来破4万,鸿蒙智行创新高!10月销量谁最猛?

零跑破7万,蔚来破4万,鸿蒙智行创新高!10月销量谁最猛?

电动星球News
2025-11-01 22:44:52
全红婵伤愈首秀夺冠后,不到24小时,评论区却各种吐槽:吃太胖了

全红婵伤愈首秀夺冠后,不到24小时,评论区却各种吐槽:吃太胖了

古木之草记
2025-11-03 12:09:31
太涩了?日本真人影游被Steam下架!只能另寻出路

太涩了?日本真人影游被Steam下架!只能另寻出路

游民星空
2025-11-01 15:10:11
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
4.25万/平!北京二手房加速俯冲?

4.25万/平!北京二手房加速俯冲?

跟着拆哥看房
2025-11-03 12:58:51
又一内鬼被抓!惊动央视,大量国家机密被泄露,作案人身份被曝光

又一内鬼被抓!惊动央视,大量国家机密被泄露,作案人身份被曝光

春秋论娱
2025-09-16 07:50:48
后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

后续!女孩校门口吃烤肠被收走钥匙,女孩哭求归还,学校紧急回应

鋭娱之乐
2025-11-03 11:25:29
张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

张紫妍:被迫陪睡31人近百次,遭道具虐待,29岁自杀留230页遗书

银河史记
2025-10-01 14:52:35
2025-11-03 14:28:49
红星新闻 incentive-icons
红星新闻
成都传媒集团旗下的新媒体平台
192879文章数 1337106关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

头条要闻

媒体:高市早苗发表涉台错误言行 中方直接"亮剑"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

数码
家居
旅游
健康
公开课

数码要闻

梦幻跨界产品:微波炉改造成PC整机!门作为显示屏、主板置于转盘

家居要闻

岁月柔情 现代品质轻奢

旅游要闻

银山重阳户外生活节亮相昌平延寿

核磁VS肌骨超声,谁更胜一筹?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版