网易首页 > 网易号 > 正文 申请入驻

AI模型的幻觉困局:Gemini 3.1能否破解「不知道」的难题

0
分享至

该图片可能由AI生成

Google刚发布Gemini 3.1 Pro,Reddit上讨论热度就爆表了。最有意思的不是那些“哇塞好厉害”的惊叹,而是一组让人细思极恐的数据。

先说说什么是幻觉率。当你问AI一个它根本不知道答案的问题时,比如某个压根没发生过的虚构事件,它有多大概率会一本正经地编造细节,又有多大概率老实承认“我不知道”?这就是幻觉率测试的核心。

Gemini 3.1在AA-omniscience基准测试中的幻觉率是50%。乍一听很糟糕对吧?但放在具体语境里,这个数字有了完全不同的含义。一年前,一个人如果对每个问题都回答“我不知道”,就能在这个榜单上排第一。现在Gemini 3.1的净得分超过30分,意味着它已经超越了普通人类的判断水平。

问题来了:我们真的需要一个什么都“知道”的AI吗?

有个律师在评论区说,作为一个不太懂技术的人,他觉得这东西“危险地接近于有用了”。这话听起来像是玩笑,实则戳中要害。50%的幻觉率意味着,当AI不确定时,它仍有一半概率会选择编造而非承认无知。这在法律、医疗等需要精确性的领域是致命的。

更讽刺的是,发布后不到半小时,就有人开始倒计时等着看“模型被削弱”的帖子出现。这已经成了AI行业的某种宿命:新模型发布时惊艳,几周后为了控制成本开始降级,用户体验逐渐下滑。

有人测试后说感觉差不多,依然会幻觉,依然不好好听指令。也有人说生成学习卡片的质量突飞猛进。这种分化本身就很说明问题:AI能力的提升往往不是全方位的,而是在特定任务上的局部突破。

那个关于“右手为什么更大”的冷幽默评论区最精彩。有人说“取决于你从哪个角度看”,有人说“(not to scale)”,还有人干脆说“To b(e)at ts”。这种调侃背后藏着一个严肃问题:我们用什么标准评判一个AI模型的好坏?

Gemini 3.1可能只是个微调版本,但幻觉率的下降让它感觉像是“另一种生物”。这个比喻很有意思。AI的进化不是线性的数值增长,而是在某个临界点突然跨越到新的能力区间。就像生物进化中某些关键突变带来的质变。

服务器在发布后几乎瘫痪,大部分请求都失败。这种火爆场面会持续多久?按照以往规律,等热度过去、服务器压力缓解时,模型性能可能已经被“优化”过了。

真正的问题不是Gemini 3.1比3.0强多少,而是我们离一个“知道自己不知道”的AI还有多远?一个诚实承认无知的AI,价值可能远超那些装作无所不知的模型。

简评:

AI最诡异的bug,不是它答错了,而是它答错时跟答对时一模一样的自信。

人类说“我不知道”有三层含义:没见过这事、想不出答案、直觉告诉我别瞎说。AI只能模拟第一层,对后两层无能为力。

50%幻觉率的真问题不是“错一半”——我们能接受人犯错——真问题是这个系统会“一本正经地胡说八道”。人类撒谎时会心虚、会露馅、会有微表情,AI没有。它用同样流畅的语气输出真话和假话,这让我们丧失了最原始的判断依据:看对方靠不靠谱的直觉。

所以“知道自己不知道”是AI最难跨越的门槛。不是因为技术不够,而是因为这需要一样它没有的东西——自我。

reddit.com/r/singularity/comments/1r94p0x/gemini_3_pro_vs_gemini_31_pro

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东宏远官宣!第二阶段外援阵容正式确定,杜锋豪赌

广东宏远官宣!第二阶段外援阵容正式确定,杜锋豪赌

林子说事
2026-02-21 12:45:05
2026年春节过去几天了,发现农村的3个怪现象,几乎村村都有!

2026年春节过去几天了,发现农村的3个怪现象,几乎村村都有!

农夫也疯狂
2026-02-19 08:22:41
高云翔大年初四逛街,花80元买3件二手衣服,二婚生活拮据落魄

高云翔大年初四逛街,花80元买3件二手衣服,二婚生活拮据落魄

阿讯说天下
2026-02-20 23:37:00
孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

青苹果sht
2026-02-20 05:52:21
FSD要来了?部分特斯拉车主辅助驾驶变更为完全自动驾驶能力

FSD要来了?部分特斯拉车主辅助驾驶变更为完全自动驾驶能力

鞭牛士
2026-02-21 16:33:51
去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

天下霸奇
2026-01-29 09:07:49
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

世界圈
2026-02-13 08:50:26
美全国州长协会宣布退出白宫会议

美全国州长协会宣布退出白宫会议

财联社
2026-02-20 13:24:09
抢先上市!上海市民餐桌上第一波时令春鲜来了

抢先上市!上海市民餐桌上第一波时令春鲜来了

新民晚报
2026-02-21 15:31:44
新加坡欢迎晚宴,申裕斌可爱,王艺迪背着包来了,王楚钦很帅气

新加坡欢迎晚宴,申裕斌可爱,王艺迪背着包来了,王楚钦很帅气

铿锵格斗
2026-02-21 19:26:05
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
印度挺不住了,急切“从中国进口”

印度挺不住了,急切“从中国进口”

都市快报橙柿互动
2026-02-21 00:09:07
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
《镖人:风起大漠》票房破5亿

《镖人:风起大漠》票房破5亿

界面新闻
2026-02-21 12:55:36
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

冷峻视角下的世界
2026-02-20 07:45:35
《镖人》单日票房升至第2,观众催拍续集,吴京回应:争取有第二部;《镖人2》去年7月已备案公示,故事梗概公开

《镖人》单日票房升至第2,观众催拍续集,吴京回应:争取有第二部;《镖人2》去年7月已备案公示,故事梗概公开

极目新闻
2026-02-20 21:58:32
香港公布宏福苑长远居住安排方案:用现金或以楼换楼的方式收购业主业权,平均尺价为8000港元(未补地价)及10500港元(已补地价)

香港公布宏福苑长远居住安排方案:用现金或以楼换楼的方式收购业主业权,平均尺价为8000港元(未补地价)及10500港元(已补地价)

每日经济新闻
2026-02-21 17:44:04
一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

混沌录
2026-01-27 22:33:05
张馨予大年初四晒美照!从日落拍到天黑500张照片,何捷也太难了

张馨予大年初四晒美照!从日落拍到天黑500张照片,何捷也太难了

乐悠悠娱乐
2026-02-21 10:43:44
2026-02-21 21:07:00
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
238文章数 20685关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

旅游
数码
亲子
家居
公开课

旅游要闻

高空挑战又+1,上海长滩观光塔邀您“勇闯云端” | 在宝山过大年

数码要闻

RX 9070 XT加价后无人问津:日本AMD显卡售价已从高峰下滑20%!

亲子要闻

直接萌化了!小宝宝看着爸爸吃面条的样子心想:等你老了的

家居要闻

本真栖居 爱暖伴流年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版