网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI揭秘大模型幻觉成因：评分机制误导模型盲目猜测

2025-09-08 09:36:13　来源: 硅星Breaknews

上海举报

0

分享至

品玩9月8日讯，据OpenAI发布研究指出，语言模型产生幻觉的核心原因，是现有训练与评估机制鼓励模型猜测而非承认不确定性。

实验显示，当被问及学者Adam Tauman Kalai的博士论文标题及生日时，某聊天机器人多次给出错误答案。研究认为，当前评估多以准确率为唯一标准，类似多选题中猜答案可能得分，说“不知道”则得零分，导致模型倾向冒险猜测。如SimpleQA测试中，o4-mini模型准确率略高，但错误率达75%，远高于选择“弃权”的gpt-5-thinking-mini模型。

OpenAI建议改革评分机制，对自信错误加重惩罚，为合理表达不确定性提供部分得分，并强调小模型也能通过“自知之明”减少幻觉，其最新模型已降低幻觉率。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

5年烧掉一个英伟达！OpenAI会是下一个安然吗？

新智元 2025-11-15 13:05:04
2 跟贴 2
OpenAI开始变得俗气了

虎嗅APP 2025-11-15 23:59:07
0 跟贴 0

从印度二本到Meta副总裁！被世界拒绝15次的他，撑起AI时代地基

新智元 2025-11-15 13:05:14
8 跟贴 8

科学界论文高引第一人易主！AI站上历史巅峰

量子位 2025-08-25 14:10:09
6 跟贴 6
AI「牛顿」来了！北大团队新突破，看一眼数据就能推出物理定律

新智元 2025-11-15 20:30:47
4 跟贴 4

OpenAI被指欺诈？

机器之心Pro 2025-09-28 17:01:32
0 跟贴 0

孙正义的“OpenAI炼金术”：卖光英伟达58亿美元是“阳谋”，提前入账80亿美元利润藏“猫腻”

每日经济新闻 2025-11-15 13:38:07
1 跟贴 1
就是个模型，有啥大惊小怪的

沙雕动画 2025-11-15 15:50:41
0 跟贴 0

这机器人也太逼真了

酒痴说梦 2025-11-15 13:36:37
1 跟贴 1
关注 | 三大航司：日本机票免费退改！

天津广播 2025-11-15 15:29:10
52915 跟贴 52915
玉渊谭天：中方已做好对日实质反制准备

新京报 2025-11-15 17:58:37
21185 跟贴 21185
一条短信，7年恩怨！奥特曼与马斯克决裂曝出新隐情

新智元 2025-11-15 17:05:27
3 跟贴 3
综合评分8.9的MPV，老闫同志的高山8用车分享

闫闯说车 2025-11-12 20:30:00
0 跟贴 0
六年级易错题，全班仅2人做对，错误率太高了

郎老师趣味数学课堂 2025-11-11 14:14:54
0 跟贴 0
公摊电梯厅成火锅涮菜区和“私人影院”？福州业主爆改一梯一户引争议律师提醒

封面新闻 2025-11-15 09:17:05
6559 跟贴 6559
挺“独”者一年流失150万两岸学者研判：统一近了！

海峡导报社 2025-11-14 17:37:15
0 跟贴 0
贵州盘州亿元建“世界最大人造月亮”运行不到百天，停运5年成闲置项目：希望有注资盘活项目

红星新闻 2025-11-14 22:16:21
12008 跟贴 12008
航行警告黄海中部实弹射击

澎湃新闻 2025-11-15 12:51:06
7513 跟贴 7513
机器人也太不分场合了，直接打乱了婚车的队形，摄影师都崩溃了

王芸爱搞笑 2025-11-14 16:33:05
4 跟贴 4
樊振东4∶2战胜王楚钦晋级全运会乒乓球男单决赛

央视新闻客户端 2025-11-15 13:51:52
6089 跟贴 6089
广义估计方程的SPSS及Stata软件实现

医咖会 2025-07-02 19:48:15
0 跟贴 0
丰田mini小浣熊来了，全透明封闭式天窗，预售价才1.3万

旅行小小攻略记录 2025-11-15 09:18:40
2 跟贴 2
求三角形面积，根据比例模型求解

公考客栈店小二 2025-11-12 14:33:00
0 跟贴 0
著名作家唐浩明再度给湖南省领导讲课，阐述湖湘文化精神底色

澎湃新闻 2025-11-15 21:50:28
0 跟贴 0
神舟二十二号飞船发射任务已启动将满载上太空

央视新闻客户端 2025-11-15 18:40:46
31 跟贴 31
网友建议上海市域机场线延伸到苏州，市交通委答复

澎湃新闻 2025-11-15 14:36:26
112 跟贴 112
胡雪岩频繁纳妾，常常一天过后就休掉，学者：难怪人家能成首富

博览历史 2025-11-15 21:33:56
0 跟贴 0
求△CDF 的面积，根据任意四边形的一半模型求解

公考客栈店小二 2025-11-14 10:33:00
0 跟贴 0
三星HDR10+A来了！杜比视界2劲敌，要靠RGB-Mini电视引爆？

雷科技 2025-11-14 11:59:34
17 跟贴 17
两次运用等高模型求解，有难度

公考客栈店小二 2025-11-13 15:35:00
0 跟贴 0
离谱！暴雪蓝贴：海里的鱼类导致服务器崩溃，BUG越修越多！

魔兽世界研究所 2025-11-15 11:57:12
16 跟贴 16
三星杯｜“00后”闪耀中国棋手连续三届包揽冠亚军

北青网-北京青年报 2025-11-15 17:35:08
39 跟贴 39
00后沪漂女孩发文：将永远维护上海人！

看看新闻Knews 2025-11-15 19:44:16
178 跟贴 178
万元内 RGB-Mini LED 怎么选？TCL Q9M 就是参考答案

雷科技 2025-11-14 19:22:03
1 跟贴 1
三甲主任医师痛哭：“做科研太难了！”

医学界 2025-11-15 20:39:46
0 跟贴 0
拼尽全力！广东女篮全运会夺冠

新快报新闻 2025-11-15 21:31:02
47 跟贴 47
比亚迪6款车进入9月份全球新能源汽车销量榜前10 吉利也有1款上榜

TechWeb 2025-11-13 17:27:12
40 跟贴 40
孙正义二次清仓英伟达，套现58亿美元转投OpenAI

量子位 2025-11-13 22:25:43
0 跟贴 0
16G小破本，硬刚5个神经网络，跑出《Her》同款AI助手

机器之心Pro 2025-08-20 19:06:23
0 跟贴 0
不会讲故事的公司卖不出车

上观新闻 2025-11-15 21:38:07
0 跟贴 0

中金：国内房价从2021年6月至今已下跌35%，但还未止跌

中金：国内房价从2021年6月至今已下跌35%，但还未止跌

知识圈

2025-11-15 14:38:45

日本机票大涨，三大航司免费退改签！这是航空公司与国人间的默契

日本机票大涨，三大航司免费退改签！这是航空公司与国人间的默契

垛垛糖

2025-11-15 22:16:27

一组关键词看日本首相高市早苗搞了什么事

一组关键词看日本首相高市早苗搞了什么事

环球网资讯

2025-11-15 20:57:18

山西“狗咬人被摔死”命案调查：纠纷如何升级。“反杀”是否防卫过度？

山西“狗咬人被摔死”命案调查：纠纷如何升级。“反杀”是否防卫过度？

澎湃新闻

2025-11-15 14:48:27

金鸡奖红毯生图来了！倪妮珠宝抢镜，关晓彤背厚，辛芷蕾礼服过季

金鸡奖红毯生图来了！倪妮珠宝抢镜，关晓彤背厚，辛芷蕾礼服过季

萌神木木

2025-11-15 18:38:53

李连杰风波再升级！业内大V曝有钱人更多内幕，不止是换器官而已

李连杰风波再升级！业内大V曝有钱人更多内幕，不止是换器官而已

古希腊掌管月桂的神

2025-11-15 15:23:34

日本议员：受降的是中华民国，新中国没资格说话！网友：那更好了

日本议员：受降的是中华民国，新中国没资格说话！网友：那更好了

青青子衿

2025-11-15 15:51:35

金鸡奖六大不公平：易烊千玺没资格拿影帝，祖峰颁奖前被除名

金鸡奖六大不公平：易烊千玺没资格拿影帝，祖峰颁奖前被除名

光影新天地

2025-11-15 22:28:37

时隔8年夺第2冠！广东全运女篮险胜四川杨舒予22分韩旭13中4

时隔8年夺第2冠！广东全运女篮险胜四川杨舒予22分韩旭13中4

醉卧浮生

2025-11-15 21:14:04

张展硕再胜潘展乐！4×200米自由泳接力：山东队力压浙江队摘金

张展硕再胜潘展乐！4×200米自由泳接力：山东队力压浙江队摘金

全景体育V

2025-11-15 20:49:52

官宣离婚仅30天，李亚鹏再迎噩耗，网友：王菲担心的事还是发生了

官宣离婚仅30天，李亚鹏再迎噩耗，网友：王菲担心的事还是发生了

白面书誏

2025-11-15 11:57:49

上海的通报来了，但荒诞并非只发生在上海

上海的通报来了，但荒诞并非只发生在上海

清书先生

2025-11-14 17:07:14

香港保安局更新日本外游警示资讯，呼吁游日港人注意安全

香港保安局更新日本外游警示资讯，呼吁游日港人注意安全

界面新闻

2025-11-15 17:33:59

日本民众82%支持涉台武力表态中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态中日军力对决风险下的亚太局势变局

行者聊官

2025-11-12 16:59:14

日本野心藏不住了？一旦开战，我军将如何吊打日军？

日本野心藏不住了？一旦开战，我军将如何吊打日军？

兵国大事

2025-11-15 00:45:04

日女首相发强硬对华言论，中国网友请求撤换驻大阪薛剑总领事

日女首相发强硬对华言论，中国网友请求撤换驻大阪薛剑总领事

熊孩子爱科技

2025-11-14 16:22:33

日媒关注：中方愤怒正在升级

环球时报新闻

2025-11-15 14:00:04

10月经济数据全线走弱：投资、消费、出口“三驾马车”全失速

10月经济数据全线走弱：投资、消费、出口“三驾马车”全失速

知识圈

2025-11-15 16:21:51

继三大航司后，多家航司同日发布通知：赴日机票可免费退改签

继三大航司后，多家航司同日发布通知：赴日机票可免费退改签

界面新闻

2025-11-15 17:09:58

德国恢复18岁兵役制！准备部署80万大军同俄罗斯开战

德国恢复18岁兵役制！准备部署80万大军同俄罗斯开战

项鹏飞

2025-11-13 21:50:49

硅星Breaknews

5930文章数 60关注度

往期回顾全部

科技要闻

撕掉流量外衣，小米还剩什么？

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级！被骗婚？

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐红旗HS6 PHEV预售17.88万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

健康

时尚

本地

艺术

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

血液科专家揭秘白血病七大误区

有品味的中年女人，穿衣都有4个共同点，看看你掌握了几个

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

艺术要闻

她的笔下女子如此动人，晚年却名声扫地！

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版