![]()
91%的准确率听起来像优等生成绩单,直到你把它乘以5万亿。
这是Google每年处理的搜索查询量。AI初创公司Oumi受《纽约时报》委托做的测算显示,Google的AI概览(AI Overviews)功能每小时向用户推送数千万条错误信息,每分钟就有数十万条。这个数字的荒谬之处在于:人类历史上从未有过任何单一系统,能以如此效率批量生产谬误。
从85%到91%:进步还是遮羞布?
Oumi的测试分两轮进行。去年10月,他们测试了基于Gemini 2模型的AI概览,准确率85%。今年2月,Google切换到被大肆宣传的Gemini 3升级版本,准确率提升至91%。
两轮测试都使用SimpleQA基准——这是OpenAI设计的行业通用AI准确性测试工具,每次测试覆盖4,326个Google搜索查询。
91% vs 85%,看起来是进步。但换个角度:Google在明知旧模型每6条回答就错1条的情况下,已经把它推给了全球用户。而新模型每11条仍错1条,只是错得稍微体面些。
「这项研究有严重漏洞,」Google发言人Ned Adriance回应《纽约时报》时称,「它不能反映用户在Google上的真实搜索行为。」
但Google自家的内部数据同样难堪。内部分析显示,Gemini 3模型本身产生错误信息的概率高达28%。Google的辩解是,AI概览会结合搜索结果再作答,因此实际准确率更高——至于高多少,他们没有给出具体数字。
认知投降:用户正在放弃核实
比错误信息更麻烦的是用户反应。研究发现,仅8%的用户会复核AI给出的答案。另一项实验显示,即使AI给出错误答案,用户仍有近80%的概率照单全收。研究者把这种现象称为「认知投降」(cognitive surrender)。
大语言模型的权威语气是关键帮凶。它们无法直接找到答案时,会自信地把编造内容包装成事实。加上Google AI概览的便利性——直接置顶在搜索结果上方,用户连点击网页的力气都省了。
想象一个场景:你搜索某种药物的副作用,AI概览自信地列出一条不存在的禁忌症。你信了,因为Google把它放在最显眼的位置,语气笃定得像医学教科书。
这种信任错位正在规模化发生。不是几千人、几万人,是每小时数千万次。
5万亿次搜索的代价
Google的商业模式建立在信息中介角色上。它从网页抓取内容,用算法排序,赚取广告费。AI概览把这个链条压缩成一步:用户提问,AI直接给答案,中间环节全部省略。
省略的不仅是网页点击,还有信息溯源的可能性。传统搜索结果至少标注来源,用户能判断是《自然》杂志还是某个论坛帖子。AI概览把来源藏进折叠菜单,多数用户不会展开。
Oumi的测试方法很直接:用SimpleQA的已知问题库跑Google搜索,对比AI概览输出与标准答案。这种方法的局限在于,真实用户的搜索行为可能更复杂、更长尾。但Google拒绝提供自家准确率数据,外界只能用这种方式估算。
一个反讽的事实:SimpleQA本身就是OpenAI设计的工具。现在它被用来测试竞争对手的产品,而OpenAI自己的ChatGPT搜索功能同样面临准确性质疑。整个行业的基准测试,正在变成互相揭短的武器。
谁来为错误答案负责?
Google的回应策略很熟悉:质疑方法论,强调改进趋势,回避具体承诺。Ned Adriance没有解释「严重漏洞」具体指什么,也没有公布Google认为「真实」的准确率数字。
这种模糊性本身就是问题。当AI概览给出错误医疗建议、错误法律信息、错误历史事实时,受损的用户找不到追责路径。Google的服务条款早就把责任推得一干二净,而AI生成的内容又难以归类为传统意义上的诽谤或欺诈。
更深层的问题在于信息生态的结构性变化。网页出版商依赖Google流量生存,AI概览却让用户无需访问原网站。内容生产者失去动力,信息源头可能逐渐枯竭——而AI能总结的东西,将越来越少、越来越旧、越来越错。
这是一个自我强化的循环:AI需要新鲜准确的内容来训练,但它的存在正在摧毁内容生产的经济基础。
91%的幻觉
回到那个91%的数字。在AI行业,这算是不错的成绩。ChatGPT、Claude、Gemini在各类基准测试中互相超越,准确率从80%爬到90%,再爬到95%。
但搜索不是聊天机器人。用户问ChatGPT「推荐周末看的电影」,得到错误答案,损失两小时。用户问Google「这种症状要不要去医院」,得到错误答案,损失的可能更多。
Google把AI概览放在搜索结果的绝对C位,等于用品牌信誉为这些答案背书。用户不把它当「AI生成的仅供参考的内容」,而是当「Google告诉我的事实」。
这种认知落差,是5万亿次搜索里真正的风险所在。
Google说模型在改进,从85%到91%就是证明。但5万亿的基数不变,9%的错误率意味着每年4500亿次错误输出。即使降到5%、3%、1%,乘以这个基数都是天文数字。
问题从来不是AI会不会犯错,而是当错误以工业规模发生时,谁来标记、谁来纠正、谁来承担后果。目前的答案是:没有人。用户「认知投降」,平台模糊其辞,监管尚未到位。
如果Google的AI概览明天给你的搜索返回一个错误答案,你会是那个8%的核实者,还是92%的接受者?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.