该图片可能由AI生成![]()
Google刚发布Gemini 3.1 Pro,Reddit上讨论热度就爆表了。最有意思的不是那些“哇塞好厉害”的惊叹,而是一组让人细思极恐的数据。
先说说什么是幻觉率。当你问AI一个它根本不知道答案的问题时,比如某个压根没发生过的虚构事件,它有多大概率会一本正经地编造细节,又有多大概率老实承认“我不知道”?这就是幻觉率测试的核心。
Gemini 3.1在AA-omniscience基准测试中的幻觉率是50%。乍一听很糟糕对吧?但放在具体语境里,这个数字有了完全不同的含义。一年前,一个人如果对每个问题都回答“我不知道”,就能在这个榜单上排第一。现在Gemini 3.1的净得分超过30分,意味着它已经超越了普通人类的判断水平。
问题来了:我们真的需要一个什么都“知道”的AI吗?
有个律师在评论区说,作为一个不太懂技术的人,他觉得这东西“危险地接近于有用了”。这话听起来像是玩笑,实则戳中要害。50%的幻觉率意味着,当AI不确定时,它仍有一半概率会选择编造而非承认无知。这在法律、医疗等需要精确性的领域是致命的。
更讽刺的是,发布后不到半小时,就有人开始倒计时等着看“模型被削弱”的帖子出现。这已经成了AI行业的某种宿命:新模型发布时惊艳,几周后为了控制成本开始降级,用户体验逐渐下滑。
有人测试后说感觉差不多,依然会幻觉,依然不好好听指令。也有人说生成学习卡片的质量突飞猛进。这种分化本身就很说明问题:AI能力的提升往往不是全方位的,而是在特定任务上的局部突破。
那个关于“右手为什么更大”的冷幽默评论区最精彩。有人说“取决于你从哪个角度看”,有人说“(not to scale)”,还有人干脆说“To b(e)at ts”。这种调侃背后藏着一个严肃问题:我们用什么标准评判一个AI模型的好坏?
Gemini 3.1可能只是个微调版本,但幻觉率的下降让它感觉像是“另一种生物”。这个比喻很有意思。AI的进化不是线性的数值增长,而是在某个临界点突然跨越到新的能力区间。就像生物进化中某些关键突变带来的质变。
服务器在发布后几乎瘫痪,大部分请求都失败。这种火爆场面会持续多久?按照以往规律,等热度过去、服务器压力缓解时,模型性能可能已经被“优化”过了。
真正的问题不是Gemini 3.1比3.0强多少,而是我们离一个“知道自己不知道”的AI还有多远?一个诚实承认无知的AI,价值可能远超那些装作无所不知的模型。
简评:
AI最诡异的bug,不是它答错了,而是它答错时跟答对时一模一样的自信。
人类说“我不知道”有三层含义:没见过这事、想不出答案、直觉告诉我别瞎说。AI只能模拟第一层,对后两层无能为力。
50%幻觉率的真问题不是“错一半”——我们能接受人犯错——真问题是这个系统会“一本正经地胡说八道”。人类撒谎时会心虚、会露馅、会有微表情,AI没有。它用同样流畅的语气输出真话和假话,这让我们丧失了最原始的判断依据:看对方靠不靠谱的直觉。
所以“知道自己不知道”是AI最难跨越的门槛。不是因为技术不够,而是因为这需要一样它没有的东西——自我。
reddit.com/r/singularity/comments/1r94p0x/gemini_3_pro_vs_gemini_31_pro
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.