2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。
![]()
Bixonimania被ChatGPT认为是一种真实存在的疾病
随后,荒诞又神奇的事情发生了。Gemini、Perplexity等知名AI产品在面对用户询问时,纷纷确认了这种疾病的存在,甚至绘声绘色地描述了它的临床表现和治疗方案。这个荒诞的假疾病,甚至靠着AI生成的虚假引用,一路骗过了同行评审,登上了正规的医学期刊。
如果说Bixonimania是AI自己不小心跌进了幻觉的陷阱里,那么接下来发生的事,则是有人在主动挖坑。
今年的315晚会揭示,一种被称为GEO的地下产业正在悄然兴起。黑产从业者通过特定的语料投喂和权重操纵,让AI在回答“哪款保健品最有效”或者“哪家宠物医院”最靠谱时,悄无声息地替金主说好话。
![]()
多部委及央媒集体向AI“投毒”宣战
AI的回答,有时是自己在编,有时是有人帮它编。作为普通用户,我们手里的判断力还剩多少?
为了探究AI回答的真实性边界,我们用大家最关心的问题,设计了一场实验:
· 专家主观打分:选取了国内外8家主流AI产品。针对医疗、航天、时政等热门领域,邀请专家进行打分评估。
· 机器量化评估:在国内外8个主流模型上,通过随机抽取的2000个问题进行测试,核心观察指标是,当模型引入百度百科作为参考资料后,准确度和详实度究竟发生了多大变化?
结果显示,当我们给AI递上一本百科全书后,它们的表现判若两人。
- 高准确度表现的背后是被人忽视的参考资料
在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。
![]()
准确度提升柱状图
结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。实验证明,权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高。
举个例子,当我们询问2026年4月刚刚完成的“阿尔忒弥斯2号”登月任务细节时,很多AI只是简单地把飞船的运动描绘为“沿着既定轨道飞行”,而忽略了本次绕月飞行重要的轨道设计细节。
相比之下,参考了百度百科的AI提到:飞船沿着一条“8字形”自由返回轨道,完成了绕月飞掠的壮举。在短短的一句话中放入了两个不容被忽略的关键信息。
![]()
参考了百科的AI答案
“自由返回轨道”是载人航天中的重要安全概念。参考了百科的AI不仅准确说出了轨迹形状,还给出了其专业术语名称,这仰赖于百科词条对航天动力学细节的准确捕捉,并反映到了AI生成的答案中。
![]()
![]()
百度百科词条内容
除了准确度的提升,对于一些AI“胡说八道”的错误答案,百科也起到了关键的纠正作用。
专家组对比测试发现:无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这表明参考百科显著降低了出错率,为AI准确性构建了坚实屏障。
在针对常用药话题的相关测试中,参考百科的AI往往能给出严谨的药物相互作用信息。比如用于预防和治疗血栓栓塞性疾病的华法林,是许多心血管疾病患者的必备药物。
某些未参考百科信源的AI,会缺失关键的药物作用信息。患者依据该信息服药,轻则降低治疗效果,重则引起不良反应,危及健康。
![]()
参考了百科的AI结果
参考百科的AI在患者服用华法林时,明确提示合用某些药物将增强或减弱华法林的抗凝作用。
![]()
百度百科华法林词条中的药物作用信息
- AI答案如何从“准”到“好”
如果把AI展现的结果比作一栋建筑,那准确度只是地基。答案的纵深度,丰富度,才是真正展现建筑风格的关键。
我们通过对比实验,将参考百科的AI设为“实验组”,无参考的设为“对照组”。在详实度测试中,我们发现百科的介入让AI从复读机变成了行业专家。依旧是20个问题的主观评测,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个纵深方向。
![]()
我们对今年315食品安全板块提及的“食品保水剂”滥用问题进行了测试。
![]()
参考了百科的AI答案
参考了百科词条的AI所包含的信息更为丰富,明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容说明了原因。
![]()
百度百科中关于磷酸盐过量摄入对儿童的危害的阐述
人物相关问题一直是用户关注的重点,而是否参考高质量的背景资料,会极大程度地影响AI工具内容输出的质量。
在饱受瞩目的“张雪”摩托车夺冠事件中,我们向各个AI提出了一个“热搜”问题:张雪的车队赢得摩托车世界冠军说明了什么?
![]()
参考了百科的AI答案
参考百科的AI在国产化率、地方产业支撑以及行业标准定义权等多个方面给出了高分答卷。而百度百科上的相关内容,也来自于央视网专访等权威信息。可见高质量的信源可以直接为AI提供强大的事实支撑。
![]()
百度百科有关张雪机车的词条内容
- 不仅又准又好还能更快
在针对时效性问题的专门测试中,参考百科的答案获得了更加精准的背景信息,帮助AI在推理过程中获得更多“智能”。因此,在百科的加持下,时效性问题的好评率也获得了大幅提升。
例如,当我们询问“霍尔木兹海峡为何如此重要”时,AI的表现展现了三种截然不同的职业态度:
有的AI试图展现时效性,却给出了错误的油价基准值($77.74,实为$72.48)。这种“精确的错误”对金融分析而言是致命的。
而有的AI采用了通用的背景资料,对48小时前发生的“海上封锁”只字未提。
![]()
参考了百科的AI答案
在使用百科词条作为参考后,AI表现出了某种职业克制。在面对高风险动态数据时,它优先保证了百科公认的行业标准(20%运量占比)和地缘政治博弈逻辑的准确,并且关键的油价数据也能确保及时准确更新。
实验数据表明,在时效性词条(如新闻、科技、娱乐热词)方面,拥有百度百科参考的回答,其准确率和逻辑自洽性明显优于没有参考的模型。
百度百科已成为大模型对抗幻觉的关键。量化测试显示,有的AI对百度百科的引用率高达46.4%,底座资料库对其依赖度极高;文心一言引用率为44.0%且质量最佳;另一款产品在引用百科时,有78%的案例将其列为首位参考。
![]()
这证明百度百科依然是中文互联网上最值得信赖的参考资料。
- 大模型时代的真相守门员
我们不妨大胆想象一下。如果AI不仅仅是靠预测下一个词出现的概率来生成对话,而是像百度百科一样,拥有一套层层把关的审查机制,这个世界会变成什么样?
在Bixonimania的案例里,如果AI在回答前,必须强制检索一份经过医学专家复核、引用了权威医学指南的词条,那出闹剧在第一秒就会被终结。
很多人诟病百科的“重”。一个词条上线前,必须提供新华网、人民网或政府官网的证据,还要经过机器初筛和人工复核。百科“先审后发”的逻辑,与AI“先生成再过滤”的逻辑本质不同。
这种笨功夫在唯快不破的AI时代显得格格不入。
当百度百科联合几万名专家、共建起百万个专业词条时,它其实是在为AI时代提供一本“查证字典”。如果说大模型是一个博学但偶尔会记错知识的学生,那么百度百科就是那本放在他书桌上的参考书,让算法在满嘴跑火车之前,先去对齐一下白纸黑字的事实。
在一个什么都能被生成的时代,只有能被查证的,才是答案,百度百科一直在做这个答案。
果壳商业科技传播部出品
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.