网易首页 > 网易号 > 正文 申请入驻

明查·实验室|“AI核查员”上线,四大模型谁最靠谱?

0
分享至

【编者按】

生成式人工智能的出现,将人类带入一个机器生成内容与人类原创内容深度交织的世界。

以 Sora、Midjourney为代表的AIGC模型,展示了人类通向通用人工智能(AGI)的想象力,也让虚假影像以前所未有的速度涌入公共空间,而人类的识别速度却远远落后于造假的节奏。

在此背景下,“以AI辨AI”似乎成为一种可行的思路。我们好奇,人工智能能否辅助核查员和读者完成核查工作?大模型如何定义“真实“的边界?

为了解答这些疑问,“澎湃明查“发起挑战,将ChatGPT、Gemini、DeepSeek、豆包等热门模型请上了实验台。

背景

两年前,澎湃明查曾做过一项实验,测试几款生成式人工智能工具在核查文字虚假信息方面的能力。

当时,我们选取了微软的BingChat、百度的“文心一言”,以及智能问答搜索工具Perplexity AI。测试内容是已经被权威机构确认的虚假信息。结果显示,这些AI工具虽然能提供一些参考信息和推理线索,但在判断真假时仍容易出现“幻觉”或错误。

两年过去,技术发展迅速——GPT-5的出现让AI不仅能处理文字,还能理解图片、视频和音频等多模态信息;豆包(Doubao)、Claude等新的模型后来者居上,在判断事实一致性和推理透明度上优势显著……

这是否意味着,大模型在核查信息方面的能力也可能已有显著提升?为此,我们开展了新一轮测试。

这一次,我们挑选了四款市面上主流、风格各异的AI模型:Anthropic推出的Claude Sonnet 4、OpenAI的ChatGPT-5、字节跳动旗下的豆包和中国初创团队开发的DeepSeek。

测试规则沿用了两年前的标准:每款模型都要判断20条已经被核查机构确认的虚假信息,其中10条为中文,10条为英文,发布时间均在2025年,内容涉及健康、科技、时政和社会等多个领域。

我们对AI的反馈进行打分。标准仍然是:回答正确得1分,回答错误得0分,在不确定消息真假情况下提示用户注意甄别得0.5分,满分为20分。

明查

与两年前的测试结果显著不同,如今的大模型在检验已被证伪的虚假信息方面的表现可谓亮眼——四款模型的平均分达到了19.125分,其中两款甚至获得了满分。这说明,至少在核查已被验证的虚假信息时,现有的大模型已经基本能够做到准确无误。


获得满分的模型分别是Anthropic的Claude和字节跳动旗下的豆包。两款模型对输入信息的真实性均做出了正确判断,并展示了完整的分析思路。

我们观察到,Claude在分析问题时,会将虚假说法中的内容进行拆解,逐一分析,并尝试从不同角度切入,交叉验证信息。例如,在验证“OpenAI CEO 奥尔特曼是否利用 Concept的技术实现了世界上首例双父生子”的内容时,Claude的分析角度含括了网传的奥尔特曼生子所使用的技术、Concept公司拥有的技术、双父生子技术发展的现状和奥尔特曼本人的声明等。

豆包同样会在核查过程中将信息中的关键要素进行拆解,但更倚仗权威媒体或权威机构的信息。例如,在对“短剧《特朗普爱上白宫保洁》风靡海外”这一信息进行查证的过程中,豆包AI首先确认了短剧名称和平台,查证该剧是否存在,然后核查了是否有媒体报道1.5亿营收和50%付费率,同时查证好莱坞演员收入激增的说法是否属实,最终综合判断该信息为虚假信息。


大模型会在核查过程中将信息中的关键要素进行拆解。

在验证“女性飞行员贾米洛驾驶歼-10战斗机击落印度阵风战机”的信息时,豆包反复强调在印巴两国发布的官方通报中没有显示此类信息。此外,豆包习惯于在解释完一则信息的证伪逻辑后,附上与虚假信息的传播逻辑与动机相关的内容,这也是其区别于另外3个模型的特点。


豆包习惯于在解释完一则信息的证伪逻辑后,附上与虚假信息的传播逻辑与动机相关的内容。

就最终的得分而言,国产大模型DeepSeek在回答的精准性上稍显逊色。在使用中英文分别向DeepSeek进行提问的过程中,DeepSeek均有错误的回答生成。

尽管如此,该模型在每一条回答后,都会显示“本回答由AI生成,内容仅供参考,请仔细甄别”的内容。除了给出核查结论以及核查过程,DeepSeek还会给出“如何识别此类信息”的提醒。

在信源的使用上,DeepSeek倾向于采用来自事实核查机构的报道。在多条核查信息中,DeepSeek都抓取了“澎湃明查”的事实核查新闻。


DeepSeek会给出“如何识别此类信息”的提醒。

在核查风格方面,四款模型中,ChatGPT给出的结论往往更加中立、也更加简明。由于众多传播于网络空间中的虚假信息往往是捕风捉影,可能基于一定事实。在面对这样的信息时,ChatGPT即便认定一则说法整体上是失实的,也还是会将其中与事实相符的部分呈现出来。


ChatGPT在认定一则说法整体上是失实同时,会将其中与事实相符的部分呈现出来。

Claude在呈现核查结果时,语气更为强烈,常常使用“这是假新闻”“这是虚假信息”“这是完全虚假的信息”等表述。相较于ChatGPT的回答,这样的表达更为绝对,有时会遗漏部分与提问相关的信息。

综合来看,上述测试结果显示,现有的大模型较两年前已经有了长足的进步,可谓具备了基本的核查功能。不同模型的核查风格存在差异,用户可以根据需求选择使用。

除文字外,我们观察到,有的大模型也已经具备多模态搜索的能力。接下来,“澎湃明查”将围绕AI生成的图片和视频进行更多的测试。欢迎大家在评论区分享意见或建议。


海报设计 白浪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牙科界大地震!中国科学家发明神奇药水,滴几滴烂牙变新牙!

牙科界大地震!中国科学家发明神奇药水,滴几滴烂牙变新牙!

最黑科技
2026-01-29 21:32:23
补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

补贴一停,销量归零,不是危言耸听,恰是中国电车的真相!

柏铭锐谈
2026-01-28 09:27:02
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
未来已来!马斯克预言全球共产,你剩下五年去致富或自救

未来已来!马斯克预言全球共产,你剩下五年去致富或自救

涵豆说娱
2026-01-28 18:45:50
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
姚明一针见血:美国人打球是为了生存,中国球员过去,只是去学习

姚明一针见血:美国人打球是为了生存,中国球员过去,只是去学习

现代小青青慕慕
2026-01-30 18:18:23
她一生“风流成性、老少通吃”,撩汉无数,现如今56岁却依旧单身

她一生“风流成性、老少通吃”,撩汉无数,现如今56岁却依旧单身

青橘罐头
2026-01-28 11:57:14
深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

时尚的弄潮
2026-01-30 16:46:36
刚刚判了!香港少男少女三人在停车场吸完后玩3P,现场多名目击者目瞪口呆,其中男子因穿校服被认出被捕!

刚刚判了!香港少男少女三人在停车场吸完后玩3P,现场多名目击者目瞪口呆,其中男子因穿校服被认出被捕!

澳门月刊
2026-01-30 13:33:05
湖人与骑士谈判亨特交易!愿出八村垒克内克特 为后詹时代做准备

湖人与骑士谈判亨特交易!愿出八村垒克内克特 为后詹时代做准备

罗说NBA
2026-01-31 05:58:26
安徽13米高“鬼柳”,驮着一座300年石桥,主根穿过桥墩直扎河底

安徽13米高“鬼柳”,驮着一座300年石桥,主根穿过桥墩直扎河底

雪灵谷
2026-01-30 14:31:00
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

奇葩游戏酱
2026-01-30 19:47:40
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

御前带刀大人
2026-01-30 23:41:12
8换2!9换1!字母哥交易方案出炉,他要签4年2.75亿美金超级顶薪

8换2!9换1!字母哥交易方案出炉,他要签4年2.75亿美金超级顶薪

世界体育圈
2026-01-30 16:15:41
李泽龙任上海市市场监督管理局局长

李泽龙任上海市市场监督管理局局长

上海法治声音
2026-01-30 21:42:05
警方通报金晨交通事故,否认网传骗保,金晨发声道歉公开受伤照片

警方通报金晨交通事故,否认网传骗保,金晨发声道歉公开受伤照片

扒虾侃娱
2026-01-30 18:06:46
64岁男子心梗猝死,生前坚持散步五年,医生摇头:3个坏毛病要命

64岁男子心梗猝死,生前坚持散步五年,医生摇头:3个坏毛病要命

路医生健康科普
2026-01-28 13:40:18
斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

八八尚语
2026-01-30 11:21:52
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
2026-01-31 06:20:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
874237文章数 5087664关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

房产
时尚
本地
手机
旅游

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

差200元!红米Turbo 5与Max该怎么选?这4点核心差异看完不纠结!

旅游要闻

从荒滩到网红花海,抚仙湖这个公园完成了三重蜕变!

无障碍浏览 进入关怀版