网易首页 > 网易号 > 正文 申请入驻

左手幻觉,右手投毒,普通人凭什么相信AI?

0
分享至

2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。


Bixonimania被ChatGPT认为是一种真实存在的疾病

随后,荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时,纷纷确认了这种疾病的存在,甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病,甚至靠着AI生成的虚假引用,一路骗过了同行评审,登上了正规的医学期刊。

如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里,那么接下来发生的事,则是有人在主动挖坑。

今年的315晚会揭示,一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵,让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时,悄无声息地替金主说好话。


多部委及央媒集体向AI“投毒”宣战

AI的回答,有时是自己在编,有时是有人帮它编。作为普通用户,我们手里的判断力还剩多少

为了探究AI回答的真实性边界,我们用大家最关心的问题,设计了一场实验:

· 专家主观打分:选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域,邀请专家进行打分评估。

· 机器量化评估:在国内外8个主流模型上,通过随机抽取的2000个问题进行测试,核心观察指标是,当模型引入百度百科作为参考资料后,准确度和详实度究竟发生了多大变化?

结果显示,当我们给AI递上一本百科全书后,它们的表现判若两人。

  • 高准确度表现的背后是被人忽视的参考资料

在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。


准确度提升柱状图

结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。实验证明,权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高

举个例子,当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时,很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”,而忽略了本次绕月飞行重要的轨道设计细节。

相比之下,参考了百度百科的AI提到:飞船沿着一条“8字形”自由返回轨道,完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。


参考了百科的AI答案

“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状,还给出了其专业术语名称,这仰赖于百科词条对航天动力学细节的准确捕捉,并反映到了AI生成的答案中。




百度百科词条内容

除了准确度的提升,对于一些AI“胡说八道”的错误答案,百科也起到了关键的纠正作用。

专家组对比测试发现:无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这表明参考百科显著降低了出错率,为AI准确性构建了坚实屏障

在针对常用药话题的相关测试中,参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林,是许多心血管疾病患者的必备药物。

某些未参考百科信源的AI,会缺失关键的药物作用信息。患者依据该信息服药,轻则降低治疗效果,重则引起不良反应,危及健康。


参考了百科的AI结果

参考百科的AI在患者服用华法林时,明确提示合用某些药物将增强或减弱华法林的抗凝作用。


百度百科华法林词条中的药物作用信息

  • AI答案如何从“准”到“好”

如果把AI展现的结果比作一栋建筑,那准确度只是地基。答案的纵深度,丰富度,才是真正展现建筑风格的关键。

我们通过对比实验,将参考百科的AI设为“实验组”,无参考的设为“对照组”。在详实度测试中,我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。



我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。


参考了百科的AI答案

参考了百科词条的AI所包含的信息更为丰富,明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容说明了原因。


百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

人物相关问题一直是用户关注的重点,而是否参考高质量的背景资料,会极大程度地影响AI工具内容输出的质量。

在饱受瞩目的“张雪”摩托车夺冠事件中,我们向各个AI提出了一个“热搜”问题:张雪的车队赢得摩托车世界冠军说明了什么?


参考了百科的AI答案

参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容,也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑


百度百科有关张雪机车的词条内容

  • 不仅又准又好还能更快

在针对时效性问题的专门测试中,参考百科的答案获得了更加精准的背景信息,帮助AI在推理过程中获得更多“智能”。因此,在百科的加持下,时效性问题的好评率也获得了大幅提升

例如,当我们询问“霍尔木兹海峡为何如此重要”时,AI的表现展现了三种截然不同的职业态度:

有的AI试图展现时效性,却给出了错误的油价基准值($77.74,实为$72.48)。这种“精确的错误”对金融分析而言是致命的。

而有的AI采用了通用的背景资料,对48小时前发生的“海上封锁”只字未提。


参考了百科的AI答案

在使用百科词条作为参考后,AI表现出了某种职业克制。在面对高风险动态数据时,它优先保证了百科公认的行业标准(20%运量占比)和地缘政治博弈逻辑的准确,并且关键的油价数据也能确保及时准确更新。

实验数据表明,在时效性词条(如新闻、科技、娱乐热词)方面,拥有百度百科参考的回答,其准确率和逻辑自洽性明显优于没有参考的模型。

百度百科已成为大模型对抗幻觉的关键。量化测试显示,有的AI对百度百科的引用率高达46.4%,底座资料库对其依赖度极高;文心一言引用率为44.0%且质量最佳;另一款产品在引用百科时,有78%的案例将其列为首位参考。



这证明百度百科依然是中文互联网上最值得信赖的参考资料

  • 大模型时代的真相守门员

我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话,而是像百度百科一样,拥有一套层层把关的审查机制,这个世界会变成什么样?

在Bixonimania的案例里,如果AI在回答前,必须强制检索一份经过医学专家复核、引用了权威医学指南的词条,那出闹剧在第一秒就会被终结。

很多人诟病百科的“重”。一个词条上线前,必须提供新华网、人民网或政府官网的证据,还要经过机器初筛和人工复核。百科“先审后发”的逻辑,与AI“先生成再过滤”的逻辑本质不同。

这种笨功夫在唯快不破的AI时代显得格格不入。

当百度百科联合几万名专家、共建起百万个专业词条时,它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生,那么百度百科就是那本放在他书桌上的参考书,让算法在满嘴跑火车之前,先去对齐一下白纸黑字的事实。

在一个什么都能被生成的时代,只有能被查证的,才是答案,百度百科一直在做这个答案

果壳商业科技传播部出品

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万达电影正式改王姓马,马化腾拉了王健林一把

万达电影正式改王姓马,马化腾拉了王健林一把

鸣金网
2026-04-20 14:54:40
人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

黯泉
2026-04-14 12:13:04
23-4,提前锁定MVP,却又引发争议!联盟自砸招牌,季后赛变味了

23-4,提前锁定MVP,却又引发争议!联盟自砸招牌,季后赛变味了

老梁体育漫谈
2026-04-21 00:54:28
曝王思聪近况:暴瘦脱相 秃顶脱发,拒付200万后,黄一鸣频繁发声

曝王思聪近况:暴瘦脱相 秃顶脱发,拒付200万后,黄一鸣频繁发声

东方不败然多多
2026-04-18 15:31:29
埃里克:欧冠出局不会抹杀这赛季表现,没人的态度能胜过我们

埃里克:欧冠出局不会抹杀这赛季表现,没人的态度能胜过我们

懂球帝
2026-04-21 00:15:05
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

小嵩
2026-04-20 13:52:49
选择大于努力?看32岁凯恩与“降级教头”如何在慕尼黑重写命运!

选择大于努力?看32岁凯恩与“降级教头”如何在慕尼黑重写命运!

落夜足球
2026-04-20 16:22:33
斯诺克世锦赛直播:凯伦威尔逊3-6穆迪,囧哥恐爆冷出局

斯诺克世锦赛直播:凯伦威尔逊3-6穆迪,囧哥恐爆冷出局

老垯科普
2026-04-21 02:06:24
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

千秋文化
2026-04-17 20:01:45
77岁的牛群:折腾半生倾家荡产,晚年被美国毕业的儿子悉心照料

77岁的牛群:折腾半生倾家荡产,晚年被美国毕业的儿子悉心照料

她时尚丫
2026-04-19 21:41:30
杨幂估计头都大了,这眼神躲还是不躲好啊。

杨幂估计头都大了,这眼神躲还是不躲好啊。

科学发掘
2026-04-18 12:22:04
对标优衣库,干翻宜家?这家“抠门”会员店,凭什么让中产上瘾

对标优衣库,干翻宜家?这家“抠门”会员店,凭什么让中产上瘾

青眼财经
2026-04-20 14:48:46
苏林回国火车刚开动就变天?

苏林回国火车刚开动就变天?

果妈聊娱乐
2026-04-20 10:17:41
一夜之间金价大变脸,4月20日最新金价,全国差价让人吃惊

一夜之间金价大变脸,4月20日最新金价,全国差价让人吃惊

生活新鲜市
2026-04-20 18:46:30
伊朗军方:美军向伊朗货船开火,伊方发射无人机还击

伊朗军方:美军向伊朗货船开火,伊方发射无人机还击

界面新闻
2026-04-20 07:04:17
1300亿的果链龙头,爆雷了

1300亿的果链龙头,爆雷了

股市动态分析
2026-04-17 08:55:03
那番绝境,大帝终究还要面对

那番绝境,大帝终究还要面对

虚声
2026-04-20 08:08:29
欧洲媒体哀嚎“一切结束了”,荷兰掐断光刻机,坑的却是自己人!

欧洲媒体哀嚎“一切结束了”,荷兰掐断光刻机,坑的却是自己人!

几人尽弃
2026-04-19 23:20:38
1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

1999年,69岁禹作敏狱中难耐孤寂,死前曾向李瑞环提出:我想回家

华人星光
2026-04-20 09:59:15
2026-04-21 02:40:49
果壳 incentive-icons
果壳
科技有意思
27540文章数 4149259关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

教育
数码
旅游
时尚
本地

教育要闻

大降温:来澳洲留学的中国学生,创近12年新低!

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版