网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI研究：错误率75%的AI比诚实模型更受欢迎

2026-04-29 18:44:58　来源: 沙溪解说

四川举报

0

分享至

大语言模型最大的问题，可能不是它不够聪明，而是它太想得分了。

不是AI变坏了，是规则在奖励说谎。

"幻觉"这个词在AI圈子里被说烂了，但它描述的现象仍然令人头疼。大语言模型在面对不确定的问题时，不会说"我不知道"，而是用一种自信流利的语气给出一个听起来专业、实际上完全错误的答案。

罕见事实，就是大语言模型的天然盲区。

但更严重、也更可以被改变的问题，藏在评估环节里。

OpenAI的团队系统分析了当前主流的大语言模型基准测试，发现几乎所有评估都采用一套简单粗暴的二元评分逻辑：答对得1分，答错或放弃作答得0分。

这套逻辑在数学上产生了一个明确的激励：对于任何一道不确定的题目，猜测都是理性选择，因为猜测至少有机会得分，而放弃永远是零分。一个在不确定时选择诚实沉默的模型，在排行榜上会系统性地输给一个不管三七二十一全部猜答案的模型。

这是一个荒谬但真实存在的悖论：评估体系在奖励更危险的行为。

但研究团队强调，仅仅在现有体系旁边加几项新的"反幻觉测试"并不够用，真正需要改变的是那些被广泛使用的主流评估体系本身。只要核心评分机制还在奖励幸运猜测，模型就会持续强化猜测行为，无论研究者在减少幻觉的技术方向上做出多少努力，都会被评估规则的激励效应悄悄抵消掉。

如何评估AI，决定了AI如何行为。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

国防部回应外界推测中国对日将有大动作

北京青年报 2026-04-30 16:41:25
5557 跟贴 5557
阳台外贴满“吵”！深圳一小区居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市报 2026-04-30 15:18:54
848 跟贴 848

物业费收不齐，亏损止不住：一年超200个物业撤场，困局何解？

新京报 2026-04-30 09:46:07
929 跟贴 929

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15229 跟贴 15229
堵！堵！堵！苏B大军出动了！

江南晚报 2026-04-30 18:58:38
67 跟贴 67

中国船员滞留霍尔木兹60天：奖发到位大部分愿继续干

潇湘晨报 2026-04-30 16:26:46
16219 跟贴 16219

福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用，且获国奖；合肥工业大学：已了解相关情况，正在核实

三湘都市报 2026-04-30 16:03:54
885 跟贴 885
一大早，就堵成鸳鸯锅了！

江南晚报 2026-05-01 09:20:19
52 跟贴 52

买新车车灯现“大小眼”，消费者欲退5000元定金，4S店：车灯符合出厂标准；记者介入，4s店退回定金

大风新闻 2026-04-30 22:08:08
1187 跟贴 1187
孙杨博士入学资格受质疑上体研招办：正调查跟进

大风新闻 2026-05-01 07:42:24
5283 跟贴 5283
二八事件再反转！杜新枝儿媳内讧互撕，利益纠葛下原形毕露

魔都姐姐杂谈 2026-05-01 13:33:45
0 跟贴 0
海关总署：即日起允许符合要求的西班牙开心果和无花果干进口

证券时报 2026-04-30 14:40:08
357 跟贴 357
大国重器集体亮相！人民海军成功配齐“航母五件套”

环球网资讯 2026-05-01 07:24:23
202 跟贴 202
2025年农民工月均收入5075元，比上年增加114元

新京报 2026-04-30 15:06:03
4471 跟贴 4471
导游称大熊猫“花花”是残疾，旅行社致歉

界面新闻 2026-05-01 07:59:04
4673 跟贴 4673
文旅部集中整治景区摆渡车，点名龙虎山、长白山、稻城亚丁等

南方都市报 2026-04-27 16:21:12
2131 跟贴 2131
都是车！第一批离深“大聪明”已堵路上

鲁中晨报 2026-04-30 21:39:23
5 跟贴 5
中国海警英文喊话警告菲船：立即停止非法行为

央视新闻客户端 2026-05-01 07:36:27
257 跟贴 257
习语丨“感谢这些美好生活的创造者、守护者”

国际在线 2026-05-01 09:00:09
32 跟贴 32
labubu冰箱售价5999元秒没有平台挂出22999元价格

新闻坊 2026-05-01 12:27:36
0 跟贴 0
Shams：森林狼后卫多苏穆因小腿受伤缺席季后赛首轮G6

北青网-北京青年报 2026-05-01 11:05:17
0 跟贴 0
爆满！鄂A大军出动了！

极目新闻 2026-05-01 08:40:23
0 跟贴 0
堵！堵！堵！排队14公里

无锡博报 2026-05-01 06:18:41
0 跟贴 0
美政府官员：2月28日开始的“敌对行动已结束”

新华社 2026-05-01 08:55:07
0 跟贴 0

第一个抢七来了！！！谁能想到啊！打脸全联盟了！

第一个抢七来了！！！谁能想到啊！打脸全联盟了！

柚子说球

2026-05-01 12:51:08

鸠山由纪夫坦言：特朗普是全球秩序最大威胁，中日应联合制衡美国

鸠山由纪夫坦言：特朗普是全球秩序最大威胁，中日应联合制衡美国

领略快乐真谛

2026-05-01 12:53:06

雷军估计更绝望了，北京车展181款首发新车，卖给谁呢？

雷军估计更绝望了，北京车展181款首发新车，卖给谁呢？

DearAuto

2026-05-01 11:56:57

5月1日起短信大调整！所有手机用户注意，全国同步执行

5月1日起短信大调整！所有手机用户注意，全国同步执行

普陀动物世界

2026-04-30 08:03:54

2026年政府机关编外人员大清理，表面是减人事实是逼着增效！

2026年政府机关编外人员大清理，表面是减人事实是逼着增效！

职场资深秘书

2026-05-01 09:46:57

最高院：提供 “口交” “肛交”等进入式性服务，是否属卖淫行为？

最高院：提供 “口交” “肛交”等进入式性服务，是否属卖淫行为？

周军律师聊案子

2026-04-21 09:50:16

沙漠的奇迹：土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

沙漠的奇迹：土库曼斯坦如何通过中国81亿美元贷款实现经济复兴?

七分瘦三分肥

2026-04-23 11:13:56

垃圾话曝光！申京怒喷詹姆斯是软蛋，詹姆斯回怼：你没资格这么说

垃圾话曝光！申京怒喷詹姆斯是软蛋，詹姆斯回怼：你没资格这么说

爱体育

2026-04-30 23:42:15

今年的季后赛，极有可能是小个子球员市场全面崩塌的分水岭

今年的季后赛，极有可能是小个子球员市场全面崩塌的分水岭

篮球小烟花

2026-05-01 08:00:03

哈蒙德试驾张雪机车后留下一个忠告：不转型电摩，燃油辉煌暂时的

哈蒙德试驾张雪机车后留下一个忠告：不转型电摩，燃油辉煌暂时的

蓝色海边

2026-05-01 00:00:44

断档第一！《寒战1994》首日票房预测6000万，华语电影的大招来了

断档第一！《寒战1994》首日票房预测6000万，华语电影的大招来了

得得电影

2026-04-30 18:01:11

演员苗苗回应手心痣越来越大：边缘轮廓清晰，属于良性痣

演员苗苗回应手心痣越来越大：边缘轮廓清晰，属于良性痣

鲁中晨报

2026-04-30 21:11:03

国民党通告两岸，台湾最大靠山已浮现，话音刚落，大陆回敬一句话

国民党通告两岸，台湾最大靠山已浮现，话音刚落，大陆回敬一句话

时光在作祟

2026-05-01 11:44:00

黑奴贸易里，将黑人扒光并让男女挤一起，只是为了省钱省事吗

黑奴贸易里，将黑人扒光并让男女挤一起，只是为了省钱省事吗

小豫讲故事

2026-04-18 06:00:12

打得太臭！世乒赛世界冠军爆冷被“血洗”不可原谅，王楚钦放狠话

打得太臭！世乒赛世界冠军爆冷被“血洗”不可原谅，王楚钦放狠话

小娱乐悠悠

2026-05-01 08:33:46

谜底揭晓、国民党大获全胜！郑丽文就“统一”发声，赖清德丢尽脸

谜底揭晓、国民党大获全胜！郑丽文就“统一”发声，赖清德丢尽脸

共工之锚

2026-05-01 00:22:26

Shams：森林狼后卫多森姆小腿受伤缺席G6；G4曾爆砍43分

Shams：森林狼后卫多森姆小腿受伤缺席G6；G4曾爆砍43分

懂球帝

2026-05-01 08:48:16

事态升级！伊能静小作文惹众怒，网友：祖国人民求你回来的吗？

事态升级！伊能静小作文惹众怒，网友：祖国人民求你回来的吗？

观察鉴娱

2026-05-01 08:33:46

退出北京市场！初代网红奶茶全国仅剩2家门店

退出北京市场！初代网红奶茶全国仅剩2家门店

红餐网

2026-05-01 11:14:24

WNBA：李月汝回归首秀12分钟高效8+8+2 飞翼大胜狂热开门红

WNBA：李月汝回归首秀12分钟高效8+8+2 飞翼大胜狂热开门红

醉卧浮生

2026-05-01 09:19:32

专业解说员

784文章数 34关注度

往期回顾全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

郴州1岁男童被人入室抢走案：奶奶曾被家人冤枉是共犯

头条要闻

郴州1岁男童被人入室抢走案：奶奶曾被家人冤枉是共犯

体育要闻

季后赛场均5.4分，他凭啥在骑士打首发？

娱乐要闻

邓超在景德镇被偶遇，穿黑外套逛茶园

财经要闻

GPU神话松动，AI真正的战场变了

汽车要闻

限时9.67万起吉利星越L/星瑞i-HEV智擎混动上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

亲子

本地

游戏

健康

艺术要闻

刘明华 2026油画新作（2024-2026）

亲子要闻

科普｜孩子为何白天不咳晚上咳

本地新闻

用青花瓷的方式，打开西溪湿地

玩家小心!别只在意划痕这种情况或导致光盘直接报废

干细胞治烧烫伤面临这些“瓶颈”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版