网易首页 > 网易号 > 正文 申请入驻

Google AI每天撒百万次谎:10%错误率背后

0
分享至

你每天用Google搜东西,顶部那个AI总结框已经悄悄替换了传统搜索结果。它叫AI Overviews,2024年上线, powered by Gemini。纽约时报最近拉了个数据:这个框的回答,10%是错的。

不是偶尔手滑,是系统性翻车。按Google的搜索量级,这意味着每分钟有数十万条错误信息被当成"权威答案"推给用户。更讽刺的是,这个10%的"好成绩"还是升级后的结果——去年Gemini 2.5时代,错误率高达15%。

测试方法:用AI测AI,SimpleQA是什么来头

这次测试由AI初创公司Oumi执行,用的是OpenAI 2024年发布的SimpleQA基准。简单说,这是一份4000多道题的考卷,每道题都有可验证的标准答案,专门用来拷问大模型的"事实性"。

Oumi去年先用Gemini 2.5跑了一遍,准确率85%。今年Gemini 3更新后重测,爬到了91%。数字看着涨了,但反过来看:每10个用户里就有1个拿到的是AI瞎编的答案。按Google日均处理数十亿次搜索的规模,这个"小比例"乘以天文数字,后果就是每天数千万条错误信息在流通。

Google发言人Ned Adriance直接怼了回去。他说SimpleQA本身就有错误,Google内部更信任"SimpleQA Verified"——一个题目更少、审核更严的版本。言下之意:你们的考题有问题,不能算。

翻车现场:AI怎么把维基百科都抄错

纽约时报在报告里晒了几个典型错误。问Bob Marley故居哪天变成博物馆的,AI Overviews引了三条来源,前两条根本没提日期,第三条是维基百科——而维基百科上赫然写着两个矛盾的年份。AI"果断"选了错的那个。

另一个例子更荒诞。问马友友(Yo Yo Ma)什么时候入选"古典音乐名人堂"的,AI Overviews一边引用了该机构的官网(上面明明写着入选年份),一边结论写"不存在古典音乐名人堂这个东西"。

这种错误模式很典型:AI不是"不知道",是"知道但理解错了",或者"看到了但选择无视"。它的核心问题是无法区分信息来源的质量,也处理不了同一信源内部的矛盾。人类看到维基百科上两个年份会愣一下、再查证;AI直接抓一个顺眼的完事。

更麻烦的是,AI Overviews的呈现方式让用户很难意识到自己在看AI生成内容。它长得太像Google传统的"精选摘要"了——那个用了十几年、从权威网页摘录的蓝色框。现在同样的位置,同样的权威感,底层却换成了概率模型在吐字。

91%准确率:AI行业的"及格线幻觉"

91%听起来不错?放到关键场景里试试。医学搜索、法律咨询、新闻核实——这些场景里10%的错误率意味着每10个人就有1个被误导。而Google的商业模式决定了它必须覆盖所有场景,不可能给"高风险查询"单独关AI。

Oumi的测试设计其实偏向保守。SimpleQA的4000道题覆盖的是"有明确事实答案"的问题,比如历史日期、科学常数、人物生平。这种结构化知识正是大模型最擅长的领域。换成开放式问题、观点类查询、或者需要实时信息的场景,错误率只会更高。

Google的反驳也有意思。他们不否认测试结果,而是质疑测试标准。这种"你尺子不准"的辩护策略,恰恰说明91%这个数字他们认——只是觉得这个"91%"比实际体验要好看。

一个细节:Google内部用的SimpleQA Verified题目更少,审核更严。这有点像考试前老师划范围,范围小了,分数自然上去。但用户每天面对的可是开放互联网,不是审核过的题库。

搜索产品的"信任折旧":用户还在用,但不再信了

AI Overviews的推出节奏很Google——先上线,再迭代,用户反馈当测试数据。2024年刚发布时闹过更大笑话:建议用户用胶水粘披萨、每天吃石头补充矿物质。当时Google的修复方式是"加限制词",让AI避开明显荒谬的答案。

但这次的10%错误率暴露的是结构性问题。胶水披萨是"一眼假",Bob Marley故居年份是"认真错"——后者更难识别,危害也更大。用户看到AI引用了维基百科,本能会觉得"有来源,靠谱",根本不会去核对原文。

这种"伪权威感"正在消耗Google最核心的资产:搜索信任。过去二十年,Google的商业模式建立在"用户相信它能找到最相关的网页"之上。现在它跳过网页直接给答案,但答案质量又达不到医疗、法律、金融等场景的要求。

一个可能的趋势:专业用户正在回流传统搜索。程序员搜技术文档、记者核实信息源、医生查临床指南——这些人开始习惯性地跳过AI Overviews,直接点下面的蓝色链接。对普通用户来说,AI总结依然方便;但对信息质量敏感的人群,Google正在变成"需要多走一步"的工具。

竞争格局:OpenAI的测试,Google的麻烦

SimpleQA是OpenAI发布的基准测试。用竞争对手的尺子量自己,Google本来就有气。但更有意思的是行业动态:OpenAI正在推SearchGPT,Perplexity靠"带来源的AI搜索"拿了高估值,微软Copilot深度整合Bing——所有人都在抢"AI+搜索"这个入口。

Google的困境在于规模。它每天处理的查询量是OpenAI全平台流量的几十倍,任何小比例的错误都会变成海量事故。小公司可以靠人工审核、限定领域来控制质量;Google的AI Overviews必须覆盖一切,从"爱因斯坦生日"到"附近哪家火锅好吃"。

91%的准确率在小公司可能是卖点,在Google是 liability(负债)。监管机构和反垄断调查者都在盯着:当一个占据90%搜索市场份额的平台,系统性地向10%的用户推送错误信息,这算不算一种"市场失灵"?

欧盟的《数字服务法》已经要求平台对算法推荐内容负责。美国的诉讼虽然进展缓慢,但司法部对Google搜索垄断的拆解意图很明确。AI Overviews的错误率数据,很可能成为下一轮监管听证会的弹药。

技术层面,Google并非没有解法。RAG(检索增强生成,Retrieval-Augmented Generation)架构理论上能让AI先查权威数据库再回答,但工程实现上,"权威数据库"的维护成本、实时性、覆盖度都是难题。维基百科已经算是结构最好的开放知识库了,AI照样能抄错。

更激进的方案是"人机回环"——高置信度答案AI直接给,低置信度答案转人工或标注不确定性。但这会拖慢响应速度,破坏"秒回"的产品体验。Google的产品经理正在两个都不完美的选项里做权衡。

用户端的变化更微妙。一部分人学会了"看来源"——AI Overviews右下角有个小箭头,点开能看到引用的网页。但点击这个动作本身,就已经抵消了AI总结"省时间"的核心价值。另一部分人干脆放弃Google,垂直场景用专门工具:编程问Claude、学术查Semantic Scholar、新闻看原始媒体。

搜索行为的碎片化,可能是Google最不愿意看到的趋势。它花了二十年把"搜索"变成一个动词,现在用户开始说"我去Perplexity一下"或者"问下ChatGPT"。

回到那个10%的数字。Oumi的测试是在Gemini 3更新后做的,Google的模型还在迭代。下一代版本可能把准确率推到95%,但错误率的下降曲线会越来越平缓——从90%到95%比从50%到90%难得多。而哪怕只有5%的错误,乘以Google的搜索量级,依然是每天数千万次的误导。

更根本的问题是:我们是否需要AI来"回答"所有问题?有些查询的本质就是探索性的、观点性的、或者根本没有标准答案。把这类问题硬塞进"正确/错误"的二元框架,本身可能就是产品设计的误区。

Google的选择是继续推AI Overviews,同时用"来源标注""反馈按钮"这些补丁来缓解问题。但补丁不能改变架构——一个以"生成"为核心、以"概率"为底层机制的模型,注定会在某些边界 case 上 confidently wrong(自信地犯错)。

纽约时报的报道出来后,社交媒体上有个高赞评论:「我妈永远不会点开那个来源箭头,她只会把AI答案截图发家族群。」这大概是Google产品经理最噩梦的场景——技术债务最终以社会成本的形式爆发。

当91%的准确率意味着每天数千万次错误,搜索引擎的"智能升级"是否正在制造一个更大规模的谣言基础设施?下一个被AI Overview误导的,会不会就是你家里那位"从不点开来源"的人?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗发现一个重大惊喜,打向以色列的导弹,竟然一颗都没有被拦截

伊朗发现一个重大惊喜,打向以色列的导弹,竟然一颗都没有被拦截

书纪文谭
2026-04-08 18:04:34
河北两名群众、一名辅警为救落水女子不幸牺牲,四人全部遇难,事发地被市民摆满鲜花,当地多方回应

河北两名群众、一名辅警为救落水女子不幸牺牲,四人全部遇难,事发地被市民摆满鲜花,当地多方回应

大风新闻
2026-04-08 18:56:14
伊朗称只有黎巴嫩停火才会与美会谈

伊朗称只有黎巴嫩停火才会与美会谈

界面新闻
2026-04-08 23:48:37
马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

史行途
2026-04-08 15:27:19
郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

混沌录
2026-04-08 19:31:04
涉霍尔木兹海峡草案,中俄投票反对,伊朗代表:感谢中俄“坚定站在历史正确一边”

涉霍尔木兹海峡草案,中俄投票反对,伊朗代表:感谢中俄“坚定站在历史正确一边”

环球网资讯
2026-04-09 07:03:17
马克龙与伊美黎领导人通话 呼吁停火范围应包括黎巴嫩

马克龙与伊美黎领导人通话 呼吁停火范围应包括黎巴嫩

环球网资讯
2026-04-09 07:24:13
看完伊朗停火声明,忍不住潸然泪下,这是一个了不起的民族

看完伊朗停火声明,忍不住潸然泪下,这是一个了不起的民族

清沐执笔
2026-04-08 16:22:11
做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

做了连战马英九没敢做的事,郑丽文专机将飞进北京,岛内风向要变

南宗历史
2026-04-09 04:46:58
神秘“欢乐马”空降屠榜,碾压Seedance 2.0,视频AI又变天了?

神秘“欢乐马”空降屠榜,碾压Seedance 2.0,视频AI又变天了?

华尔街见闻官方
2026-04-08 20:23:49
全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

全红婵报警:潜伏裁判给低分,郭晶晶看出猫腻,过往不公彻底曝光

眼光很亮
2026-04-08 14:51:46
我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

千秋文化
2026-04-06 19:51:23
“科幻电影般的战争”来了

“科幻电影般的战争”来了

中国新闻周刊
2026-04-09 07:34:11
因游戏支持乌克兰,就给其打低分?

因游戏支持乌克兰,就给其打低分?

昊轩看世界
2026-04-08 20:51:16
巴黎2-0利物浦,克瓦拉茨赫利亚一条龙,杜埃建功,利物浦0射正

巴黎2-0利物浦,克瓦拉茨赫利亚一条龙,杜埃建功,利物浦0射正

懂球帝
2026-04-09 04:58:22
猪价跌到秦朝以来最便宜?更残酷的是猪种危机!

猪价跌到秦朝以来最便宜?更残酷的是猪种危机!

包不同
2026-04-08 23:10:44
中东面面观丨美以伊战争迎来两周停火 是暂停键还是休止符?

中东面面观丨美以伊战争迎来两周停火 是暂停键还是休止符?

极目新闻
2026-04-09 08:07:26
零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

混沌录
2026-04-07 22:00:19
美伊同意停火后,首批船只通过霍尔木兹海峡

美伊同意停火后,首批船只通过霍尔木兹海峡

界面新闻
2026-04-08 18:09:20
英国74岁奶奶独自游中国,各地网友接力抢着当导游,吉首大学学生:她在享受生活

英国74岁奶奶独自游中国,各地网友接力抢着当导游,吉首大学学生:她在享受生活

潇湘晨报
2026-04-08 18:04:41
2026-04-09 09:48:49
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
953文章数 10关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

福建45岁女子驾车坠河5人遇难有3名儿童 家属最新发声

头条要闻

福建45岁女子驾车坠河5人遇难有3名儿童 家属最新发声

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

局势再升级!霍尔木兹海峡关闭

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

教育
时尚
房产
手机
艺术

教育要闻

一项30年数据研究:这3个专业读研恐出现负回报!

ED网红病,正在掏空年轻女性

房产要闻

超级卷王登场!海口首个抬板四代宅,彻底刷新认知!

手机要闻

OPPO Find X9s Pro手机外观曝光:四款配色,矩形相机模组

艺术要闻

赵丽颖再传喜讯,获央视点赞!网友:她的底气,藏不住了

无障碍浏览 进入关怀版