网易首页 > 网易号 > 正文 申请入驻

为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分

0
分享至

在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。


▲概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”


▲学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天机器人更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

红星新闻记者 王雅林 实习记者 杨诗柔

编辑 邓旆光

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
隋文静/韩聪“燃尽自己”,近20年彼此支撑留下一生友谊

隋文静/韩聪“燃尽自己”,近20年彼此支撑留下一生友谊

澎湃新闻
2026-02-17 21:01:04
女教师带出5届状元班,优秀教师却落选,转身去私立,全年级挽留

女教师带出5届状元班,优秀教师却落选,转身去私立,全年级挽留

第四思维
2025-09-03 09:30:25
揭秘湖人休赛期策略:愿让詹姆斯留队 追求优质3D+全力梭哈字母哥

揭秘湖人休赛期策略:愿让詹姆斯留队 追求优质3D+全力梭哈字母哥

罗说NBA
2026-02-17 23:21:42
中国一游客在日本遭疯狂辱骂,对方多次让他滚出日本,视频太气人

中国一游客在日本遭疯狂辱骂,对方多次让他滚出日本,视频太气人

影像温度
2026-02-15 22:01:34
被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

史海孤雁
2026-02-14 18:06:18
为什么学霸不喜欢给学渣讲题?网友:得从盘古开天辟地讲起!

为什么学霸不喜欢给学渣讲题?网友:得从盘古开天辟地讲起!

另子维爱读史
2026-02-14 20:26:52
中国驻越南总领馆紧急预警:别去!去了就是九死一生

中国驻越南总领馆紧急预警:别去!去了就是九死一生

好笑娱乐君每一天
2026-02-17 10:35:30
中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

柳先说
2026-02-03 17:12:14
7小时票房破2.8亿,《飞驰人生3》春节档首日夺冠,吴京回本无望

7小时票房破2.8亿,《飞驰人生3》春节档首日夺冠,吴京回本无望

靠谱电影君
2026-02-17 07:09:15
所有发达国家都有一个共性:人工很贵,劳动很值钱。

所有发达国家都有一个共性:人工很贵,劳动很值钱。

流苏晚晴
2026-01-27 18:18:22
巴菲特任内最后操作曝光!黄金下跌!

巴菲特任内最后操作曝光!黄金下跌!

证券时报e公司
2026-02-18 08:17:19
除夕这天,领导其实在等着你的拜年微信!

除夕这天,领导其实在等着你的拜年微信!

细说职场
2026-02-17 17:29:03
虚竹活了百岁,为何不收洪七公为徒,你看他改名后成了哪个大恶人

虚竹活了百岁,为何不收洪七公为徒,你看他改名后成了哪个大恶人

耳东文史
2026-02-05 00:02:13
没人告诉龙洋,眼睛是心灵的窗户吗

没人告诉龙洋,眼睛是心灵的窗户吗

凹凹滴
2026-02-17 17:45:26
佟丽娅春晚出演花开富贵,精妙绝伦!杨丽萍:“正是我心中的牡丹仙子”

佟丽娅春晚出演花开富贵,精妙绝伦!杨丽萍:“正是我心中的牡丹仙子”

可乐谈情感
2026-02-18 09:44:33
秦志戬退让,王励勤明确职责分工,樊振东迎来利好消息

秦志戬退让,王励勤明确职责分工,樊振东迎来利好消息

卿子书
2026-02-08 15:40:03
吴石案后,蒋经国以为台湾再无地下党,却不知李克农还留了后手!

吴石案后,蒋经国以为台湾再无地下党,却不知李克农还留了后手!

阿泠你好
2026-02-04 09:46:20
蔚来ES8卖疯了,问界M8突然哑火,40万级SUV战场变了天

蔚来ES8卖疯了,问界M8突然哑火,40万级SUV战场变了天

三农老历
2026-02-17 22:15:00
“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

妍妍教育日记
2026-02-04 18:29:23
人为什么一定要读书,因为读书多了,你才能成为一个真正意义上活着的人

人为什么一定要读书,因为读书多了,你才能成为一个真正意义上活着的人

爱读书的陕北大叔
2026-02-15 08:16:36
2026-02-18 12:03:00
红星新闻 incentive-icons
红星新闻
成都传媒集团旗下的新媒体平台
200455文章数 1340460关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

蔡明称收到春晚邀请第一反应就是拒绝:他们给了两理由

头条要闻

蔡明称收到春晚邀请第一反应就是拒绝:他们给了两理由

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

教育
手机
数码
房产
公开课

教育要闻

“新校长”应有的模样

手机要闻

三星预热Galaxy S26系列:AI一键修复画面、切换昼夜场景

数码要闻

苹果发布macOS 26.4 Tahoe首个公测版:自定义充电上限

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版