网易首页 > 网易号 > 正文 申请入驻

左手幻觉,右手投毒,普通人凭什么相信AI?

0
分享至

2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。


Bixonimania被ChatGPT认为是一种真实存在的疾病

随后,荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时,纷纷确认了这种疾病的存在,甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病,甚至靠着AI生成的虚假引用,一路骗过了同行评审,登上了正规的医学期刊。

如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里,那么接下来发生的事,则是有人在主动挖坑。

今年的315晚会揭示,一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵,让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时,悄无声息地替金主说好话。


多部委及央媒集体向AI“投毒”宣战

AI的回答,有时是自己在编,有时是有人帮它编。作为普通用户,我们手里的判断力还剩多少

为了探究AI回答的真实性边界,我们用大家最关心的问题,设计了一场实验:

· 专家主观打分:选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域,邀请专家进行打分评估。

· 机器量化评估:在国内外8个主流模型上,通过随机抽取的2000个问题进行测试,核心观察指标是,当模型引入百度百科作为参考资料后,准确度和详实度究竟发生了多大变化?

结果显示,当我们给AI递上一本百科全书后,它们的表现判若两人。

  • 高准确度表现的背后是被人忽视的参考资料

在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。


准确度提升柱状图

结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。实验证明,权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高

举个例子,当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时,很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”,而忽略了本次绕月飞行重要的轨道设计细节。

相比之下,参考了百度百科的AI提到:飞船沿着一条“8字形”自由返回轨道,完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。


参考了百科的AI答案

“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状,还给出了其专业术语名称,这仰赖于百科词条对航天动力学细节的准确捕捉,并反映到了AI生成的答案中。




百度百科词条内容

除了准确度的提升,对于一些AI“胡说八道”的错误答案,百科也起到了关键的纠正作用。

专家组对比测试发现:无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这表明参考百科显著降低了出错率,为AI准确性构建了坚实屏障

在针对常用药话题的相关测试中,参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林,是许多心血管疾病患者的必备药物。

某些未参考百科信源的AI,会缺失关键的药物作用信息。患者依据该信息服药,轻则降低治疗效果,重则引起不良反应,危及健康。


参考了百科的AI结果

参考百科的AI在患者服用华法林时,明确提示合用某些药物将增强或减弱华法林的抗凝作用。


百度百科华法林词条中的药物作用信息

  • AI答案如何从“准”到“好”

如果把AI展现的结果比作一栋建筑,那准确度只是地基。答案的纵深度,丰富度,才是真正展现建筑风格的关键。

我们通过对比实验,将参考百科的AI设为“实验组”,无参考的设为“对照组”。在详实度测试中,我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。



我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。


参考了百科的AI答案

参考了百科词条的AI所包含的信息更为丰富,明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容说明了原因。


百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

人物相关问题一直是用户关注的重点,而是否参考高质量的背景资料,会极大程度地影响AI工具内容输出的质量。

在饱受瞩目的“张雪”摩托车夺冠事件中,我们向各个AI提出了一个“热搜”问题:张雪的车队赢得摩托车世界冠军说明了什么?


参考了百科的AI答案

参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容,也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑


百度百科有关张雪机车的词条内容

  • 不仅又准又好还能更快

在针对时效性问题的专门测试中,参考百科的答案获得了更加精准的背景信息,帮助AI在推理过程中获得更多“智能”。因此,在百科的加持下,时效性问题的好评率也获得了大幅提升

例如,当我们询问“霍尔木兹海峡为何如此重要”时,AI的表现展现了三种截然不同的职业态度:

有的AI试图展现时效性,却给出了错误的油价基准值($77.74,实为$72.48)。这种“精确的错误”对金融分析而言是致命的。

而有的AI采用了通用的背景资料,对48小时前发生的“海上封锁”只字未提。


参考了百科的AI答案

在使用百科词条作为参考后,AI表现出了某种职业克制。在面对高风险动态数据时,它优先保证了百科公认的行业标准(20%运量占比)和地缘政治博弈逻辑的准确,并且关键的油价数据也能确保及时准确更新。

实验数据表明,在时效性词条(如新闻、科技、娱乐热词)方面,拥有百度百科参考的回答,其准确率和逻辑自洽性明显优于没有参考的模型。

百度百科已成为大模型对抗幻觉的关键。量化测试显示,有的AI对百度百科的引用率高达46.4%,底座资料库对其依赖度极高;文心一言引用率为44.0%且质量最佳;另一款产品在引用百科时,有78%的案例将其列为首位参考。



这证明百度百科依然是中文互联网上最值得信赖的参考资料

  • 大模型时代的真相守门员

我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话,而是像百度百科一样,拥有一套层层把关的审查机制,这个世界会变成什么样?

在Bixonimania的案例里,如果AI在回答前,必须强制检索一份经过医学专家复核、引用了权威医学指南的词条,那出闹剧在第一秒就会被终结。

很多人诟病百科的“重”。一个词条上线前,必须提供新华网、人民网或政府官网的证据,还要经过机器初筛和人工复核。百科“先审后发”的逻辑,与AI“先生成再过滤”的逻辑本质不同。

这种笨功夫在唯快不破的AI时代显得格格不入。

当百度百科联合几万名专家、共建起百万个专业词条时,它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生,那么百度百科就是那本放在他书桌上的参考书,让算法在满嘴跑火车之前,先去对齐一下白纸黑字的事实。

在一个什么都能被生成的时代,只有能被查证的,才是答案,百度百科一直在做这个答案

果壳商业科技传播部出品

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

扎心了!“我生君未富”,一博主举出大厂大量现实案例,评论沸腾

火山詩话
2026-06-30 05:52:05
纯欲微光里的神颜,一眼锁定这抹清新

纯欲微光里的神颜,一眼锁定这抹清新

云端小院
2026-06-30 10:09:03
美国大满贯爆冷:8强诞生,勒布伦兄弟出局,国乒两连胜

美国大满贯爆冷:8强诞生,勒布伦兄弟出局,国乒两连胜

章民解说体育
2026-07-01 04:39:10
恩德里克孕妻亮相!挺大肚子看球,世界杯风景线,巴西太太团新宠

恩德里克孕妻亮相!挺大肚子看球,世界杯风景线,巴西太太团新宠

阿废冷眼观察所
2026-06-30 13:35:14
大闹美联航大妈后续:以为回国就没事?三重处罚直接砸脸上

大闹美联航大妈后续:以为回国就没事?三重处罚直接砸脸上

轩逸阿II
2026-06-30 02:36:46
两性关系:不管你信不信,女性过了45岁后,基本都有这7个现状

两性关系:不管你信不信,女性过了45岁后,基本都有这7个现状

荔子言
2026-06-11 13:28:05
菲律宾已被中国镇住,日本却坐不住,直接喊话中方:绝不能容许!

菲律宾已被中国镇住,日本却坐不住,直接喊话中方:绝不能容许!

老鹈爱说事
2026-07-01 04:35:10
23岁打不过43岁!陈熠2-0领先被逆转,侯英超道出背后原因

23岁打不过43岁!陈熠2-0领先被逆转,侯英超道出背后原因

曹老师评球
2026-07-01 00:05:07
中国最“穷”的6个铁饭碗行业:表面体面风光,实际工资低到想哭

中国最“穷”的6个铁饭碗行业:表面体面风光,实际工资低到想哭

一口娱乐
2026-06-28 15:10:19
另类曼市德比,哈兰德力压阿玛德!挪威闯入十六强,对决巴西!

另类曼市德比,哈兰德力压阿玛德!挪威闯入十六强,对决巴西!

海浪星体育
2026-07-01 03:10:46
日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

扬子晚报
2026-06-30 09:54:05
人人疯考驾照的时代彻底结束 大批年轻人果断放弃,真实原因太现实

人人疯考驾照的时代彻底结束 大批年轻人果断放弃,真实原因太现实

周哥一影视
2026-06-29 12:38:04
揭秘詹姆斯离开湖人!库里亲自出面招募 哈登暂缓续约助骑士抢人

揭秘詹姆斯离开湖人!库里亲自出面招募 哈登暂缓续约助骑士抢人

追球者
2026-07-01 03:59:54
63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

63岁句号近况曝光!二婚娶小11岁丫蛋低调生女,如今幸福圆满

落雪听梅a
2026-06-29 20:03:38
布丽吉特闪耀国宴,一袭法式粉裙又仙又美,迎接苏提达王后

布丽吉特闪耀国宴,一袭法式粉裙又仙又美,迎接苏提达王后

红袖说事
2026-06-30 19:12:29
世界杯乱了:随着摩洛哥4-3,世界前十已有2队被送回家

世界杯乱了:随着摩洛哥4-3,世界前十已有2队被送回家

侧身凌空斩
2026-06-30 12:03:38
1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

纪实文录
2025-06-21 14:47:10
周杰伦鸟巢唱完隔夜就走,红发秒变黑发,昆凌这腿长比例绝了

周杰伦鸟巢唱完隔夜就走,红发秒变黑发,昆凌这腿长比例绝了

落雪听梅a
2026-06-30 14:45:51
2026高考出现反常一幕:国防科大暴跌,另一所军校却涨了102分

2026高考出现反常一幕:国防科大暴跌,另一所军校却涨了102分

妍妍教育日记
2026-06-29 19:27:46
董卿父亲发文悼念亡妻,句句不提女婿,却句句都是对密春雷的寒心

董卿父亲发文悼念亡妻,句句不提女婿,却句句都是对密春雷的寒心

孤芳自赏的小李
2026-06-30 12:16:55
2026-07-01 06:19:00
果壳 incentive-icons
果壳
科技有意思
27897文章数 4149327关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

本地
艺术
时尚
公开课
军事航空

本地新闻

贵州小城的新目标:举办“村超”世界杯!

艺术要闻

见过毛主席写魏碑么?世上仅此一幅!

Meiinpsn的穿衣风格,清新又叛逆

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版