Google AI概览91%准确率背后|谷歌|算法|错误率|电子表格|知名企业

Google AI概览91%准确率背后

分享至

91%的准确率听起来像优等生成绩单，直到你把它乘以5万亿。

这是Google每年处理的搜索查询量。AI初创公司Oumi受《纽约时报》委托做的测算显示，Google的AI概览（AI Overviews）功能每小时向用户推送数千万条错误信息，每分钟就有数十万条。这个数字的荒谬之处在于：人类历史上从未有过任何单一系统，能以如此效率批量生产谬误。

从85%到91%：进步还是遮羞布？

Oumi的测试分两轮进行。去年10月，他们测试了基于Gemini 2模型的AI概览，准确率85%。今年2月，Google切换到被大肆宣传的Gemini 3升级版本，准确率提升至91%。

两轮测试都使用SimpleQA基准——这是OpenAI设计的行业通用AI准确性测试工具，每次测试覆盖4,326个Google搜索查询。

91% vs 85%，看起来是进步。但换个角度：Google在明知旧模型每6条回答就错1条的情况下，已经把它推给了全球用户。而新模型每11条仍错1条，只是错得稍微体面些。

「这项研究有严重漏洞，」Google发言人Ned Adriance回应《纽约时报》时称，「它不能反映用户在Google上的真实搜索行为。」

但Google自家的内部数据同样难堪。内部分析显示，Gemini 3模型本身产生错误信息的概率高达28%。Google的辩解是，AI概览会结合搜索结果再作答，因此实际准确率更高——至于高多少，他们没有给出具体数字。

认知投降：用户正在放弃核实

比错误信息更麻烦的是用户反应。研究发现，仅8%的用户会复核AI给出的答案。另一项实验显示，即使AI给出错误答案，用户仍有近80%的概率照单全收。研究者把这种现象称为「认知投降」（cognitive surrender）。

大语言模型的权威语气是关键帮凶。它们无法直接找到答案时，会自信地把编造内容包装成事实。加上Google AI概览的便利性——直接置顶在搜索结果上方，用户连点击网页的力气都省了。

想象一个场景：你搜索某种药物的副作用，AI概览自信地列出一条不存在的禁忌症。你信了，因为Google把它放在最显眼的位置，语气笃定得像医学教科书。

这种信任错位正在规模化发生。不是几千人、几万人，是每小时数千万次。

5万亿次搜索的代价

Google的商业模式建立在信息中介角色上。它从网页抓取内容，用算法排序，赚取广告费。AI概览把这个链条压缩成一步：用户提问，AI直接给答案，中间环节全部省略。

省略的不仅是网页点击，还有信息溯源的可能性。传统搜索结果至少标注来源，用户能判断是《自然》杂志还是某个论坛帖子。AI概览把来源藏进折叠菜单，多数用户不会展开。

Oumi的测试方法很直接：用SimpleQA的已知问题库跑Google搜索，对比AI概览输出与标准答案。这种方法的局限在于，真实用户的搜索行为可能更复杂、更长尾。但Google拒绝提供自家准确率数据，外界只能用这种方式估算。

一个反讽的事实：SimpleQA本身就是OpenAI设计的工具。现在它被用来测试竞争对手的产品，而OpenAI自己的ChatGPT搜索功能同样面临准确性质疑。整个行业的基准测试，正在变成互相揭短的武器。

谁来为错误答案负责？

Google的回应策略很熟悉：质疑方法论，强调改进趋势，回避具体承诺。Ned Adriance没有解释「严重漏洞」具体指什么，也没有公布Google认为「真实」的准确率数字。

这种模糊性本身就是问题。当AI概览给出错误医疗建议、错误法律信息、错误历史事实时，受损的用户找不到追责路径。Google的服务条款早就把责任推得一干二净，而AI生成的内容又难以归类为传统意义上的诽谤或欺诈。

更深层的问题在于信息生态的结构性变化。网页出版商依赖Google流量生存，AI概览却让用户无需访问原网站。内容生产者失去动力，信息源头可能逐渐枯竭——而AI能总结的东西，将越来越少、越来越旧、越来越错。

这是一个自我强化的循环：AI需要新鲜准确的内容来训练，但它的存在正在摧毁内容生产的经济基础。

91%的幻觉

回到那个91%的数字。在AI行业，这算是不错的成绩。ChatGPT、Claude、Gemini在各类基准测试中互相超越，准确率从80%爬到90%，再爬到95%。

但搜索不是聊天机器人。用户问ChatGPT「推荐周末看的电影」，得到错误答案，损失两小时。用户问Google「这种症状要不要去医院」，得到错误答案，损失的可能更多。

Google把AI概览放在搜索结果的绝对C位，等于用品牌信誉为这些答案背书。用户不把它当「AI生成的仅供参考的内容」，而是当「Google告诉我的事实」。

这种认知落差，是5万亿次搜索里真正的风险所在。

Google说模型在改进，从85%到91%就是证明。但5万亿的基数不变，9%的错误率意味着每年4500亿次错误输出。即使降到5%、3%、1%，乘以这个基数都是天文数字。

问题从来不是AI会不会犯错，而是当错误以工业规模发生时，谁来标记、谁来纠正、谁来承担后果。目前的答案是：没有人。用户「认知投降」，平台模糊其辞，监管尚未到位。

如果Google的AI概览明天给你的搜索返回一个错误答案，你会是那个8%的核实者，还是92%的接受者？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Google AI概览91%准确率背后

从85%到91%：进步还是遮羞布？

认知投降：用户正在放弃核实

5万亿次搜索的代价

谁来为错误答案负责？

91%的幻觉

涨价浪潮下，DeepSeek推动AI“价格战”

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

森林狼3比1掘金：逆境中杀出了多孙穆？！

仅次《指环王》的美剧，有第二季

事关新就业群体，中办、国办发文

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

18幅 列宾美院教师Artem Tikhonov风景写生

昨日1.78万人次在广富林文化遗址体验壮乡风情，“五一”期间还有精彩节目等你来

自然肌理 温润美学

云游中国｜逛世界风筝都 留学生探秘中国传统文化

预售19.38万元起哈弗猛龙PLUS七座版亮相

18幅列宾美院教师Artem Tikhonov风景写生

自然肌理温润美学

云游中国｜逛世界风筝都留学生探秘中国传统文化