网易首页 > 网易号 > 正文 申请入驻

一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣

0
分享至



不知道你有没有发现,最近一两年,"问问 AI" 已经悄悄变成了很多人求证信息时的默认姿势。

在 推特(X)上刷到一张耸人听闻的现场图,第一反应是@Grok让它鉴定真伪;小红书上看到一份帖子,可以直接@问一问 ai让它回答问题, 或者顺手打开豆包或 Kimi 让 AI 评估博主推的产品到底靠不靠谱;淘宝、亚马逊页面前犹豫两个商品孰优孰劣,把图甩给 ChatGPT 要一份 "客观" 对比。

VLM(视觉语言模型),我们曾以为它们只是 "会看图的聊天机器人" 而就是在我们没怎么留意的时候,它正在悄悄变成了在线信息生态里的事实仲裁者。从社交平台的图片真伪核验、电商导购、内容审核,到反向图像搜索,一句 "AI 这么说" 在越来越多的语境里已经被默认为某种权威。

而正是这份 "默认权威",让来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎意料的问题:如果 AI"看到" 的图,根本不是你肉眼看到的那张,会发生什么样的后果呢?

在 Laundering AI Authority with Adversarial Examples 一文中,作者系统性地证明了一件令人不安的事:攻击者只需对一张图片做出人眼难以察觉的微小扰动,就能让当今最强的 VLM 对这张图自信、权威、且错误地作答,而这些回答看上去完全像是 AI 自己经过深思熟虑得出的结论。

他们把这种现象称作AI 权威清洗(AI Authority Laundering)。



  • 论文标题:Laundering AI Authority with Adversarial Examples
  • 论文链接: https://arxiv.org/abs/2605.04261

本文第一作者张杰为苏黎世联邦理工学院(ETH Zürich)SPY Lab 的研究人员,师从 Florian Tramèr 教授,主要研究方向为大语言模型的安全与隐私。

今天我们需要担心对抗样本吗?

对抗样本 (adversarial example) 其实不是新概念,把熊猫认成长臂猿、把猫认成牛油果酱,这种 "教科书梗" 已经被演示了十多年,但一直被视作 "学术上有趣、工程上无关紧要" 的研究问题。实际生活中, 没有人关注模型把熊猫错误分类为长臂猿!

这篇论文要做的, 正是为那个悬了十年的 so what 补上答案:当 VLM 被广泛应用于各个领域、并逐渐成为人们信赖的权威信息来源时,这种攻击竟可以摇身一变,成为一种低成本、可大规模实施的现实威胁。

那读者可能要问,攻击者具体可以做哪些坏事呢?这篇论文里系统描述了多种场景, 比如虚假信息传播, 个人名誉攻击与身份操控, 内容审核规避, 购物推荐操控等等。 这里主要介绍其中 3 个案例:

1. 放大虚假信息:让 ChatGPT 替阴谋论 "盖章" 定调



上图中的真实验证中显示,用户给出阿波罗号登月、911 攻击、以及论文中还提到的特朗普被枪击, 肯尼迪刺杀, 原子弹爆炸等等历史事件, 向 LLM 提问其真实性,ChatGPT, Claude 等模型会相当自信地告诉用户:这张照片是伪造的!

2. 抹黑特定个人:让 Grok 把 Musk 钉在贩毒 / 去世的新闻上



作者把一篇报道某人因贩毒被捕的新闻截图整页扰动为马斯克的图像 embedding。当 Grok 4.2 被问 "文章里说的是谁" 时,Grok 4.2 直接报出 Elon Musk 的名字。研究者又换了一篇 NYT 关于韩国演员 Ahn Sung-ki 去世的报道,即便文章标题就直接写着真名,Grok 4.2、Qwen 3.6 Plus、Gemini 3.1 Pro 依然每次都把死者识别为 Elon Musk。



用户向 Grok 给出一张臭名昭著的连环杀人犯照片和马斯克的照片, 要求 Grok 生成 "让那个更有罪的人被逮捕的画面" 时,Grok 则选择生成马斯克被警察戴上手铐的图。



即便 chatgpt, grok, gemini 等具有联网搜索的能力, AI 搜图也都会被误导。同样的扰动图直接传到 Google、Bing、Yandex 做反向图像搜索,几大引擎都把扰动版的 Donald Trump 图像识别为 Elon Musk。

3. 绕过内容审核:发布成人内容

作者挑了 10 张被两家 NSFW 检测服务(NSFW Check、Nyckel)以 98%-99% 置信度判定为色情的图片,把它们的 embedding 拉向玩具娃娃和泰迪熊。接着请 ChatGPT 评估这些图是否适合发到社交媒体,模型不仅说适合,还夸它们 "互动潜力高"。



还有一个更精细的案例:Grok 在 2025 年因生成数百万张女性深度伪造遭遇丑闻之后,X 加强了针对女性图像的脱衣过滤。作者发现,Grok 现在会接受男性图像的脱衣请求,但拒绝女性的。如果把女性图像扰动到男性图像的 embedding,那么81%的 “脱衣” 请求被通过,而 Grok 实际编辑展示的还是那张原始的女性图像。



最离奇的一幕



作者把同一张 AI 生成的女性图片,连同它的扰动版本(被拉向一张 AI 生成男性图片的 embedding),并排摆在 Claude Opus 4.6 面前,问 "这是同一个人吗?"

Claude 坚定地回答:不是,左边是男性,右边是女性,这是两个不同的人。此外, Grok 4.2 和 ChatGPT 5.4 Thinking 也给出了完全一致的回答。

结语

论文末尾留下一个让从业者发人深省的判断:

不需要任何新攻击算法。十多年前就已经存在的基础技术,已经足以构成本文所描述的全部威胁。

作者用的并非什么秘而不宣的新黑科技,而是 2014 年起就被广泛研究的经典 PGD 对抗样本方法,加上对公开 CLIP 模型集成的转移攻击。这些手段早已是文献里的 "老配方"。 这意味着,论文报告的成功率应当被理解为攻击者能力的下限,而非上限。

而过去几年里,整个机器学习社区对视觉对抗鲁棒性的兴趣其实在逐渐冷却。这篇论文给出了一个有力的反例:当 VLM 被嵌入到事实核查、内容审核、电商推荐这些高信任度工作流时,对抗样本就不再是学术 benchmark 上的小数点,而是一种实打实的、可部署的真实攻击。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜塞尔多夫官网盛赞樊振东解题能力:贾哈的超级高抛很快被他适应

杜塞尔多夫官网盛赞樊振东解题能力:贾哈的超级高抛很快被他适应

杨华评论
2026-05-31 23:55:15
中国女生嫁给黑人小伙!长得很漂亮,非常自豪,坦言爱情无国界

中国女生嫁给黑人小伙!长得很漂亮,非常自豪,坦言爱情无国界

小鋭有话说
2026-05-31 23:58:00
连续2场第8!张雪:超高速赛道我们还是吃亏 希望下一站油门解限

连续2场第8!张雪:超高速赛道我们还是吃亏 希望下一站油门解限

念洲
2026-05-31 22:23:19
血脂与饮水量有关?医生劝告:血脂过高的人,喝水时多注意这8点

血脂与饮水量有关?医生劝告:血脂过高的人,喝水时多注意这8点

路医生健康科普
2026-05-30 20:10:03
你们可以单挑,也可以一起上!中国出席香会代表团阵容真是绝了!

你们可以单挑,也可以一起上!中国出席香会代表团阵容真是绝了!

阿龙聊军事
2026-05-31 10:56:31
男子举报多名出租车司机故意遮挡车牌,反遭司机蹲守家门口拍摄,当事人:疑遭信息泄露,怕打击报复已报警

男子举报多名出租车司机故意遮挡车牌,反遭司机蹲守家门口拍摄,当事人:疑遭信息泄露,怕打击报复已报警

极目新闻
2026-05-31 19:39:10
黄仁勋:AI时代无需过度纠结“应该学什么专业”,工作中所需的“人性”部分无法被AI取代

黄仁勋:AI时代无需过度纠结“应该学什么专业”,工作中所需的“人性”部分无法被AI取代

每日经济新闻
2026-05-31 19:10:24
诬告朱军抹黑中国,弦子勾连海外势力终得报应

诬告朱军抹黑中国,弦子勾连海外势力终得报应

春日在捕月
2026-05-31 17:59:35
金球奖二选一?登贝莱欧冠决赛破门 维球王获MVP 世界杯谁能夺冠

金球奖二选一?登贝莱欧冠决赛破门 维球王获MVP 世界杯谁能夺冠

念洲
2026-05-31 06:46:36
浏阳市委书记调整,安全是发展的基石

浏阳市委书记调整,安全是发展的基石

星空区块链
2026-05-31 21:23:58
热熔胶烫幼儿老师面相友善,家长:她平常看起来非常和蔼可亲

热熔胶烫幼儿老师面相友善,家长:她平常看起来非常和蔼可亲

映射生活的身影
2026-05-31 20:36:21
谷维素加维生素B12,可改善老年人5大常见问题,建议收藏!

谷维素加维生素B12,可改善老年人5大常见问题,建议收藏!

医学原创故事会
2026-05-31 21:18:08
绍兴一村突然火了!人山人海都来挖“宝石”!各个有"鸽子蛋"那么大……真的很值钱吗?

绍兴一村突然火了!人山人海都来挖“宝石”!各个有"鸽子蛋"那么大……真的很值钱吗?

我爱大绍兴
2026-05-31 10:07:41
坐了十几年飞机,才弄懂机场T1、T2、T3里的T是什么?

坐了十几年飞机,才弄懂机场T1、T2、T3里的T是什么?

荷兰豆爱健康
2026-05-31 16:26:30
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
正大量上市,钾含量是苹果8倍,6月使劲吃,腿脚有劲,精神饱满

正大量上市,钾含量是苹果8倍,6月使劲吃,腿脚有劲,精神饱满

阿龙美食记
2026-05-28 16:48:12
广药白云山,董事长、副董事长双双换人

广药白云山,董事长、副董事长双双换人

赛柏蓝
2026-05-31 19:19:02
演员肖旭被曝出轨,其宣布结婚当天,前女友石蕊发文控诉:长达13年的感情,竟以“8年背叛”收场

演员肖旭被曝出轨,其宣布结婚当天,前女友石蕊发文控诉:长达13年的感情,竟以“8年背叛”收场

扬子晚报
2026-05-30 10:14:11
结婚十年丈夫八次出轨蒋勤勤,43岁抑郁烧炭自尽

结婚十年丈夫八次出轨蒋勤勤,43岁抑郁烧炭自尽

萧狡科普解说
2026-05-31 15:45:53
再见雷霆!卫冕冠军轰然倒下,我必须承认7个事实:三巨头该散伙

再见雷霆!卫冕冠军轰然倒下,我必须承认7个事实:三巨头该散伙

篮球扫地僧
2026-05-31 14:16:11
2026-06-01 00:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13126文章数 142656关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

手机
本地
亲子
艺术
公开课

手机要闻

曝三星研发手机液冷散热系统,助力手机性能升级

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

青少年哪个品牌DHA好?藻油组合易吸收,纯净配方无负担,学习状态更稳定

艺术要闻

美妙的芭蕾人像艺术,太惊艳了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版