网易首页 > 网易号 > 正文 申请入驻

左手幻觉,右手投毒,普通人凭什么相信AI?

0
分享至

2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。


Bixonimania被ChatGPT认为是一种真实存在的疾病

随后,荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时,纷纷确认了这种疾病的存在,甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病,甚至靠着AI生成的虚假引用,一路骗过了同行评审,登上了正规的医学期刊。

如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里,那么接下来发生的事,则是有人在主动挖坑。

今年的315晚会揭示,一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵,让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时,悄无声息地替金主说好话。


多部委及央媒集体向AI“投毒”宣战

AI的回答,有时是自己在编,有时是有人帮它编。作为普通用户,我们手里的判断力还剩多少

为了探究AI回答的真实性边界,我们用大家最关心的问题,设计了一场实验:

· 专家主观打分:选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域,邀请专家进行打分评估。

· 机器量化评估:在国内外8个主流模型上,通过随机抽取的2000个问题进行测试,核心观察指标是,当模型引入百度百科作为参考资料后,准确度和详实度究竟发生了多大变化?

结果显示,当我们给AI递上一本百科全书后,它们的表现判若两人。

  • 高准确度表现的背后是被人忽视的参考资料

在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。


准确度提升柱状图

结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。实验证明,权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高

举个例子,当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时,很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”,而忽略了本次绕月飞行重要的轨道设计细节。

相比之下,参考了百度百科的AI提到:飞船沿着一条“8字形”自由返回轨道,完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。


参考了百科的AI答案

“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状,还给出了其专业术语名称,这仰赖于百科词条对航天动力学细节的准确捕捉,并反映到了AI生成的答案中。




百度百科词条内容

除了准确度的提升,对于一些AI“胡说八道”的错误答案,百科也起到了关键的纠正作用。

专家组对比测试发现:无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这表明参考百科显著降低了出错率,为AI准确性构建了坚实屏障

在针对常用药话题的相关测试中,参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林,是许多心血管疾病患者的必备药物。

某些未参考百科信源的AI,会缺失关键的药物作用信息。患者依据该信息服药,轻则降低治疗效果,重则引起不良反应,危及健康。


参考了百科的AI结果

参考百科的AI在患者服用华法林时,明确提示合用某些药物将增强或减弱华法林的抗凝作用。


百度百科华法林词条中的药物作用信息

  • AI答案如何从“准”到“好”

如果把AI展现的结果比作一栋建筑,那准确度只是地基。答案的纵深度,丰富度,才是真正展现建筑风格的关键。

我们通过对比实验,将参考百科的AI设为“实验组”,无参考的设为“对照组”。在详实度测试中,我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。



我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。


参考了百科的AI答案

参考了百科词条的AI所包含的信息更为丰富,明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容说明了原因。


百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

人物相关问题一直是用户关注的重点,而是否参考高质量的背景资料,会极大程度地影响AI工具内容输出的质量。

在饱受瞩目的“张雪”摩托车夺冠事件中,我们向各个AI提出了一个“热搜”问题:张雪的车队赢得摩托车世界冠军说明了什么?


参考了百科的AI答案

参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容,也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑


百度百科有关张雪机车的词条内容

  • 不仅又准又好还能更快

在针对时效性问题的专门测试中,参考百科的答案获得了更加精准的背景信息,帮助AI在推理过程中获得更多“智能”。因此,在百科的加持下,时效性问题的好评率也获得了大幅提升

例如,当我们询问“霍尔木兹海峡为何如此重要”时,AI的表现展现了三种截然不同的职业态度:

有的AI试图展现时效性,却给出了错误的油价基准值($77.74,实为$72.48)。这种“精确的错误”对金融分析而言是致命的。

而有的AI采用了通用的背景资料,对48小时前发生的“海上封锁”只字未提。


参考了百科的AI答案

在使用百科词条作为参考后,AI表现出了某种职业克制。在面对高风险动态数据时,它优先保证了百科公认的行业标准(20%运量占比)和地缘政治博弈逻辑的准确,并且关键的油价数据也能确保及时准确更新。

实验数据表明,在时效性词条(如新闻、科技、娱乐热词)方面,拥有百度百科参考的回答,其准确率和逻辑自洽性明显优于没有参考的模型。

百度百科已成为大模型对抗幻觉的关键。量化测试显示,有的AI对百度百科的引用率高达46.4%,底座资料库对其依赖度极高;文心一言引用率为44.0%且质量最佳;另一款产品在引用百科时,有78%的案例将其列为首位参考。



这证明百度百科依然是中文互联网上最值得信赖的参考资料

  • 大模型时代的真相守门员

我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话,而是像百度百科一样,拥有一套层层把关的审查机制,这个世界会变成什么样?

在Bixonimania的案例里,如果AI在回答前,必须强制检索一份经过医学专家复核、引用了权威医学指南的词条,那出闹剧在第一秒就会被终结。

很多人诟病百科的“重”。一个词条上线前,必须提供新华网、人民网或政府官网的证据,还要经过机器初筛和人工复核。百科“先审后发”的逻辑,与AI“先生成再过滤”的逻辑本质不同。

这种笨功夫在唯快不破的AI时代显得格格不入。

当百度百科联合几万名专家、共建起百万个专业词条时,它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生,那么百度百科就是那本放在他书桌上的参考书,让算法在满嘴跑火车之前,先去对齐一下白纸黑字的事实。

在一个什么都能被生成的时代,只有能被查证的,才是答案,百度百科一直在做这个答案

果壳商业科技传播部出品

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵传来好消息,真相终于曝光?家人松口气,陈若琳暖心送祝愿

全红婵传来好消息,真相终于曝光?家人松口气,陈若琳暖心送祝愿

小犙拍客在北漂
2026-06-22 14:59:48
2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

细说职场
2026-06-22 16:23:54
违法借用资质承包工程,3名工人死亡!

违法借用资质承包工程,3名工人死亡!

应急360
2026-06-23 10:19:17
今日足球看点:世界杯L组,英格兰VS加纳,巴拿马VS克罗地亚

今日足球看点:世界杯L组,英格兰VS加纳,巴拿马VS克罗地亚

Shoot体育
2026-06-23 07:15:07
八成以上考生弃考,南京大学“强基”再次遇冷,原因揭秘

八成以上考生弃考,南京大学“强基”再次遇冷,原因揭秘

史海流年号
2026-06-20 21:04:12
倪妮陈昊宇坐下露小肚子,评论区炸了:瘦子也有,我释怀了

倪妮陈昊宇坐下露小肚子,评论区炸了:瘦子也有,我释怀了

梦回千年aa
2026-06-21 08:33:20
CBA大结局,李楠正式成为北京队主教练,周琦赵睿要认真了

CBA大结局,李楠正式成为北京队主教练,周琦赵睿要认真了

宗介说体育
2026-06-22 17:48:11
美国向伊朗赔款3000亿美元,是《辛丑条约》的6倍!

美国向伊朗赔款3000亿美元,是《辛丑条约》的6倍!

军武次位面
2026-06-22 17:11:59
单场获评满分有多难?世界杯至今三人做到,只有梅西不靠守门!

单场获评满分有多难?世界杯至今三人做到,只有梅西不靠守门!

听我说球
2026-06-22 08:10:35
国际油价,显著下跌!金价、银价,都跌了

国际油价,显著下跌!金价、银价,都跌了

中国能源网
2026-06-23 10:14:07
4年5300万,斯通看走眼了!火箭敲定建队基石,侧翼3D恐被交易

4年5300万,斯通看走眼了!火箭敲定建队基石,侧翼3D恐被交易

体育大朋说
2026-06-23 10:28:07
第一次见有比古力娜扎身材好的素人,腰臀比曲线很重要

第一次见有比古力娜扎身材好的素人,腰臀比曲线很重要

小椰的奶奶
2026-06-23 06:00:28
活久见!800元讨薪聊天登上热搜,以“抹一脸屎”施压,老板转账

活久见!800元讨薪聊天登上热搜,以“抹一脸屎”施压,老板转账

火山詩话
2026-04-30 06:45:15
世界杯预测,英格兰队和葡萄牙队赢球,哥伦比亚队与刚果金战平

世界杯预测,英格兰队和葡萄牙队赢球,哥伦比亚队与刚果金战平

足球分析员
2026-06-23 11:00:07
人民日报对马宁的称呼变了,三字之差释放强烈信号,范志毅没说错

人民日报对马宁的称呼变了,三字之差释放强烈信号,范志毅没说错

寒士之言本尊
2026-06-22 17:27:10
“吃的掉地上了,洗一下给你爸吃”,宁波一地父亲节玩梗引发争议

“吃的掉地上了,洗一下给你爸吃”,宁波一地父亲节玩梗引发争议

火山詩话
2026-06-23 11:29:53
后宫侍寝床头两条铁律:一不准出声,另一条脏得史官都不敢写

后宫侍寝床头两条铁律:一不准出声,另一条脏得史官都不敢写

兰姐说故事
2026-04-25 20:20:09
“百日誓师”遭网暴,645分考入中国人大,3年后的符文迪怎么样了

“百日誓师”遭网暴,645分考入中国人大,3年后的符文迪怎么样了

金风说
2026-06-07 19:10:32
红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

磊子讲史
2026-06-18 17:11:27
弟弟生日宴上打我女儿一巴掌,我老婆反手一酒瓶砸他头上缝了12针

弟弟生日宴上打我女儿一巴掌,我老婆反手一酒瓶砸他头上缝了12针

徐侠客有话说
2026-04-15 10:47:59
2026-06-23 12:15:00
果壳 incentive-icons
果壳
科技有意思
27851文章数 4149317关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

上市公司40岁女副总裁突发意外去世 事发前一天还开会

头条要闻

上市公司40岁女副总裁突发意外去世 事发前一天还开会

体育要闻

哈兰德国家队52场59球 世界杯狂刷6大纪录

娱乐要闻

喜剧大师曝光肖战拍戏状态!

财经要闻

智谱万亿市值,国产Anthropic真来了?

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

时尚
本地
手机
健康
旅游

今年夏天一定要拥有的6条绝美裙子,太好看了!

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

手机要闻

苹果再玩套路!或直接跳过 iPhone19,为20周年 iPhone20憋大招

粽子还没吃完?专家教你“清库存”

旅游要闻

端午假期云南火了!铁路客流创新高、民宿预定全国前三!暑期未至避暑游已提前升温,“捡菌子”预订暴涨6倍!

无障碍浏览 进入关怀版