网易首页 > 网易号 > 正文 申请入驻

Google AI概览91%准确率背后

0
分享至


91%的准确率听起来像优等生成绩单,直到你把它乘以5万亿。

这是Google每年处理的搜索查询量。AI初创公司Oumi受《纽约时报》委托做的测算显示,Google的AI概览(AI Overviews)功能每小时向用户推送数千万条错误信息,每分钟就有数十万条。这个数字的荒谬之处在于:人类历史上从未有过任何单一系统,能以如此效率批量生产谬误。

从85%到91%:进步还是遮羞布?

Oumi的测试分两轮进行。去年10月,他们测试了基于Gemini 2模型的AI概览,准确率85%。今年2月,Google切换到被大肆宣传的Gemini 3升级版本,准确率提升至91%。

两轮测试都使用SimpleQA基准——这是OpenAI设计的行业通用AI准确性测试工具,每次测试覆盖4,326个Google搜索查询。

91% vs 85%,看起来是进步。但换个角度:Google在明知旧模型每6条回答就错1条的情况下,已经把它推给了全球用户。而新模型每11条仍错1条,只是错得稍微体面些。

「这项研究有严重漏洞,」Google发言人Ned Adriance回应《纽约时报》时称,「它不能反映用户在Google上的真实搜索行为。」

但Google自家的内部数据同样难堪。内部分析显示,Gemini 3模型本身产生错误信息的概率高达28%。Google的辩解是,AI概览会结合搜索结果再作答,因此实际准确率更高——至于高多少,他们没有给出具体数字。

认知投降:用户正在放弃核实

比错误信息更麻烦的是用户反应。研究发现,仅8%的用户会复核AI给出的答案。另一项实验显示,即使AI给出错误答案,用户仍有近80%的概率照单全收。研究者把这种现象称为「认知投降」(cognitive surrender)。

大语言模型的权威语气是关键帮凶。它们无法直接找到答案时,会自信地把编造内容包装成事实。加上Google AI概览的便利性——直接置顶在搜索结果上方,用户连点击网页的力气都省了。

想象一个场景:你搜索某种药物的副作用,AI概览自信地列出一条不存在的禁忌症。你信了,因为Google把它放在最显眼的位置,语气笃定得像医学教科书。

这种信任错位正在规模化发生。不是几千人、几万人,是每小时数千万次。

5万亿次搜索的代价

Google的商业模式建立在信息中介角色上。它从网页抓取内容,用算法排序,赚取广告费。AI概览把这个链条压缩成一步:用户提问,AI直接给答案,中间环节全部省略。

省略的不仅是网页点击,还有信息溯源的可能性。传统搜索结果至少标注来源,用户能判断是《自然》杂志还是某个论坛帖子。AI概览把来源藏进折叠菜单,多数用户不会展开。

Oumi的测试方法很直接:用SimpleQA的已知问题库跑Google搜索,对比AI概览输出与标准答案。这种方法的局限在于,真实用户的搜索行为可能更复杂、更长尾。但Google拒绝提供自家准确率数据,外界只能用这种方式估算。

一个反讽的事实:SimpleQA本身就是OpenAI设计的工具。现在它被用来测试竞争对手的产品,而OpenAI自己的ChatGPT搜索功能同样面临准确性质疑。整个行业的基准测试,正在变成互相揭短的武器。

谁来为错误答案负责?

Google的回应策略很熟悉:质疑方法论,强调改进趋势,回避具体承诺。Ned Adriance没有解释「严重漏洞」具体指什么,也没有公布Google认为「真实」的准确率数字。

这种模糊性本身就是问题。当AI概览给出错误医疗建议、错误法律信息、错误历史事实时,受损的用户找不到追责路径。Google的服务条款早就把责任推得一干二净,而AI生成的内容又难以归类为传统意义上的诽谤或欺诈。

更深层的问题在于信息生态的结构性变化。网页出版商依赖Google流量生存,AI概览却让用户无需访问原网站。内容生产者失去动力,信息源头可能逐渐枯竭——而AI能总结的东西,将越来越少、越来越旧、越来越错。

这是一个自我强化的循环:AI需要新鲜准确的内容来训练,但它的存在正在摧毁内容生产的经济基础。

91%的幻觉

回到那个91%的数字。在AI行业,这算是不错的成绩。ChatGPT、Claude、Gemini在各类基准测试中互相超越,准确率从80%爬到90%,再爬到95%。

但搜索不是聊天机器人。用户问ChatGPT「推荐周末看的电影」,得到错误答案,损失两小时。用户问Google「这种症状要不要去医院」,得到错误答案,损失的可能更多。

Google把AI概览放在搜索结果的绝对C位,等于用品牌信誉为这些答案背书。用户不把它当「AI生成的仅供参考的内容」,而是当「Google告诉我的事实」。

这种认知落差,是5万亿次搜索里真正的风险所在。

Google说模型在改进,从85%到91%就是证明。但5万亿的基数不变,9%的错误率意味着每年4500亿次错误输出。即使降到5%、3%、1%,乘以这个基数都是天文数字。

问题从来不是AI会不会犯错,而是当错误以工业规模发生时,谁来标记、谁来纠正、谁来承担后果。目前的答案是:没有人。用户「认知投降」,平台模糊其辞,监管尚未到位。

如果Google的AI概览明天给你的搜索返回一个错误答案,你会是那个8%的核实者,还是92%的接受者?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
八十岁后,老人能活到以下状态,就是人生赢家,便是圆满!

八十岁后,老人能活到以下状态,就是人生赢家,便是圆满!

小谈食刻美食
2026-04-22 07:33:20
火箭命悬一线自讨苦吃?23+4后卫逆袭称王,伊森+次轮签就能换他

火箭命悬一线自讨苦吃?23+4后卫逆袭称王,伊森+次轮签就能换他

谢说篮球
2026-04-26 16:28:30
每体:拉什福德和卡萨多基本确定离队;坎塞洛顺位高于巴尔德

每体:拉什福德和卡萨多基本确定离队;坎塞洛顺位高于巴尔德

懂球帝
2026-04-26 17:44:12
弄巧成拙!美媒惊叹:俄罗斯圆中国30年的梦,靠欧盟神助攻!

弄巧成拙!美媒惊叹:俄罗斯圆中国30年的梦,靠欧盟神助攻!

阿雹娱乐
2026-04-26 18:04:17
丁俊晖赵心童大结局精彩上演,中国小将0:2落后世界名将

丁俊晖赵心童大结局精彩上演,中国小将0:2落后世界名将

体育丰蕴
2026-04-26 18:19:35
伊朗议员:伊方已形成管理霍尔木兹海峡综合方案,敌对国船只不得通过,通过船只须缴纳相关费用 优先以里亚尔支付

伊朗议员:伊方已形成管理霍尔木兹海峡综合方案,敌对国船只不得通过,通过船只须缴纳相关费用 优先以里亚尔支付

每日经济新闻
2026-04-26 16:28:05
2015年,身价400亿的“黑老大”刘汉死后,前妻杨雪下场如何?

2015年,身价400亿的“黑老大”刘汉死后,前妻杨雪下场如何?

谈史论天地
2026-04-02 10:55:07
闫安透露好消息!称马龙许昕可能也去伦敦,国乒男团夺冠又添胜算

闫安透露好消息!称马龙许昕可能也去伦敦,国乒男团夺冠又添胜算

三十年莱斯特城球迷
2026-04-26 16:55:57
台湾到底何时统一?原来李敖早就预言了,说得很精准

台湾到底何时统一?原来李敖早就预言了,说得很精准

顾史
2026-03-03 15:23:07
特朗普、穆杰塔巴、佩泽希齐扬,同日表态

特朗普、穆杰塔巴、佩泽希齐扬,同日表态

极目新闻
2026-04-26 07:59:00
大腿严重抽筋仍赢球,卫冕冠军演横扫,萨巴战大坂,张帅双线出局

大腿严重抽筋仍赢球,卫冕冠军演横扫,萨巴战大坂,张帅双线出局

网球之家
2026-04-26 14:48:20
美媒:美方代表将赴巴基斯坦同伊朗外长谈判

美媒:美方代表将赴巴基斯坦同伊朗外长谈判

环球网资讯
2026-04-25 06:22:05
张凌赫脚伤上了热搜!车内痛苦表情曝光!对接方回应

张凌赫脚伤上了热搜!车内痛苦表情曝光!对接方回应

麦芽是个小趴菜
2026-04-26 16:58:21
无缘季后赛!张庆鹏亲承总结,北控的问题真全在球员?

无缘季后赛!张庆鹏亲承总结,北控的问题真全在球员?

宝哥精彩赛事
2026-04-26 18:21:35
3国拒绝过航,美国抗议日本关切,郑丽文咬死1句话:路走错了!

3国拒绝过航,美国抗议日本关切,郑丽文咬死1句话:路走错了!

眼界看视野
2026-04-26 18:50:44
iPhone 18 Pro镜头4大相机升级首度曝光

iPhone 18 Pro镜头4大相机升级首度曝光

果粉易查
2026-04-24 14:55:03
霍尔木兹战火下,中东客商涌进北京车展抢货:划掉“丰田”们,狂订中国车

霍尔木兹战火下,中东客商涌进北京车展抢货:划掉“丰田”们,狂订中国车

每日经济新闻
2026-04-25 18:33:41
不管楼层多高,这5个楼层才是最吉利楼层,不是迷信,而是共识

不管楼层多高,这5个楼层才是最吉利楼层,不是迷信,而是共识

室内设计师有料儿
2026-04-24 10:42:26
为啥很多店没生意,却一直在营业?网友:普通人怕是开不了茶叶店

为啥很多店没生意,却一直在营业?网友:普通人怕是开不了茶叶店

带你感受人间冷暖
2026-04-22 02:21:30
梁文锋立下大功!DeepSeek全面国产化,AI霸权不再垄断

梁文锋立下大功!DeepSeek全面国产化,AI霸权不再垄断

侃故事的阿庆
2026-04-25 12:32:21
2026-04-26 19:39:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1730文章数 27关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

艺术
旅游
家居
本地
公开课

艺术要闻

18幅 列宾美院教师Artem Tikhonov风景写生

旅游要闻

昨日1.78万人次在广富林文化遗址体验壮乡风情,“五一”期间还有精彩节目等你来

家居要闻

自然肌理 温润美学

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版