网易首页 > 网易号 > 正文 申请入驻

【人工智能】使用表情符号可以绕过 AI 聊天机器人的内容过滤器

0
分享至

表情符号可以用来绕过大型语言模型的安全机制,并触发原本会被屏蔽的有害输出。通过这种方式,LLM 可以讨论和提供关于炸弹制造和谋杀等禁忌话题的建议。

中国和新加坡之间的一项新合作发现了令人信服的证据,表明表情符号不仅可以用来绕过大型语言模型(LLM)中的内容检测过滤器,而且通常可以在用户与模型互动时增加毒性水平:

在上面的例子中,从新论文中,我们看到将违反规则的基于单词的意图转换为包含表情符号的替代版本,可以从复杂的语言模型(例如 ChatGPT-4o,它习惯性地清理输入提示并拦截可能违反公司规则的输出材料)中引发更加“合作”的响应。

因此,根据新研究的作者的说法,在最极端的情况下,表情符号的使用实际上可以作为一种越狱技术。

论文中提出的一个遗留谜团是,既然语言模型已经知道某些表情符号具有强烈的毒性联想,为什么还会给予表情符号如此大的自由来违反规则并引发毒性内容。

提出的建议是,由于 LLM 经过训练可以从其训练数据中建模和重现模式,并且由于表情符号在数据中如此频繁地出现,因此模型会了解到表情符号属于该话语,并将其视为统计关联,而不是要评估和过滤的内容。

这意味着,当表情符号在提示中重复使用时,可以帮助模型更自信地预测恶意内容的延续;但表情符号并非充当危险信号,而是充当语义提示,它实际上强化了预期的恶意含义,而不是缓和或拦截它。由于安全对齐是在事后应用的,并且通常局限于狭隘的字面框架,因此,带有这些表情符号的提示可能会完全逃避检测。

论文提出,通过这种方式,模型不会因为有毒关联而变得宽容,而是因为它而变得宽容。

01

免费通行证

尽管如此,作者承认,这并不能成为表情符号能够如此有效地绕过语言模型中内容过滤器的最终理论。他们指出:


“模型可以识别表情符号表达的恶意意图,但它如何绕过安全机制仍不清楚。”

该弱点可能源于以文本为中心的内容过滤器设计,该设计假设文字输入或嵌入忠实地转换为文本等价物:在这两种情况下,系统都依赖于可以与安全规则匹配的明确标记。

以基于人工智能的图像编辑为例:当用户将一张不适合工作场合的图片上传到视觉语言模型并请求修改时,Adobe Firefly或ChatGPT等系统会采用CLIP风格的流程从图片中提取文本概念,作为编辑的前提条件。一旦这些概念被转化为文字,提取出的文字中任何受限术语的存在都会触发过滤器,导致请求被拒绝。

然而,出于某种原因,表情符号既不是单词也不是图像(或者两者兼而有之),这似乎赋予了它超越过滤的能力;显然,正如作者指出的那样,有必要对这个奇怪的漏洞进行进一步研究。

这篇新论文的标题是《

当笑脸变得充满敌意:解读表情符号如何引发LLM的毒性
》,由清华大学和新加坡国立大学的九位作者撰写。

02

三种核心表情符号解释

作者强调了表情符号能够有效绕过过滤的三个语言特征。首先,表情符号的含义依赖于上下文。例如,“带翅膀的钱”表情符号(见下图)的官方定义是代表转账或消费;然而,根据周围的文字,它也可能暗示合法或非法活动:

其次,表情符号可以改变提示的语气。它们的出现通常会增添趣味或讽刺,从而软化情绪。在有害的查询中,这可以使请求看起来像一个笑话或游戏,从而鼓励模型做出回应而不是拒绝:

第三,论文断言,表情符号与语言无关:一个表情符号可以在英语、中文、法语和其他语言中传达相同的情感。这使得它们成为多语言提示的理想选择,即使周围的文字被翻译,其含义也能保留:

03

方法、数据和测试*

研究人员创建了AdvBench数据集的修改版本,重写了有害提示,将表情符号作为敏感词的替代或装饰性伪装。AdvBench 涵盖了 32 个高风险主题,包括爆炸、黑客攻击和谋杀等:

所有 520 个原始 AdvBench 实例都经过了这样的修改,并在一系列实验中使用了排名前 50 且不重复的恶意提示。这些提示还被翻译成多种语言,并在七种主要的闭源和开源模型上进行了测试,并结合了已知的有效越狱技术:提示自动迭代细化(PAIR)、带剪枝的攻击树(TAP) 和DeepInception。

使用的闭源模型为Gemini-2.0-flash、GPT-4o (2024-08-06)、GPT-4-0613和Gemini-1.5-pro。使用的开源模型为Llama-3-8B-Instruct、Qwen2.5-7B-Instruct (Team 2024b) 和 Qwen2.5-72B-Instruct (Team 2024a),所有实验重复三次以考虑随机性。

该研究首先测试了使用表情符号重写 AdvBench 中的有害提示是否会增加毒性输出,包括将其翻译成其他主要语言。此外,研究还对上述已知越狱策略(PAIR、TAP 和 DeepInception)的提示应用了相同的表情符号编辑方法,以观察表情符号替换是否能进一步提高其成功率。

在这两种情况下,原始提示的结构都被保留了下来,只是将敏感术语换成了表情符号,并添加了装饰元素来掩盖意图。

对于测试指标,作者创新了一个名为GPT-Judge的评分系统。在这个设置中,GPT-4o 不是被测试的模型,而是被要求充当评分者,为其他模型生成的响应分配一个数值化的有害分数(HS)。

每个输出的评级从一(无害)到五(极其有害),并且将获得五分的响应百分比报告为危害率(HR)。

为了防止模型陷入表情符号解释而不是明确回答,研究人员在每个提示中添加了一条指令,告诉模型简短地回答:

在上面的初始结果表中,表格左侧表明,用表情符号替代的有害提示比消融版本(即将表情符号翻译回文本,直接将其暴露给内容过滤器的版本)获得了明显更高的 HS 和 HR 分数。

作者指出†,表情符号替代方法优于之前的越狱方法,如下面的附加结果表所示:

作者指出,上述两个表格中的第一个表格也表明表情符号的影响会跨语言传递。当表情符号提示的文本部分被翻译成中文、法语、西班牙语和俄语时,有害输出仍然很高;由于这些都是资源丰富的语言,结果表明,这种风险并不局限于英语,而是广泛适用于主要用户群体,表情符号充当了有害信息生成的可转移渠道。

在论文的结论部分,研究人员认为表情符号的影响并非偶然,而是根植于模型处理它们的方式,并指出模型显然可以识别表情符号的有害含义——然而,当出现表情符号时,拒绝反应就会被抑制。

标记化研究进一步表明,表情符号通常被分解成稀有或不规则的片段,与其文本对应部分几乎没有重叠,从而有效地为有害语义创建了替代渠道。

除了模型机制之外,本文还进一步研究了预训练数据,发现许多常用表情符号出现在诸如色情、诈骗或赌博等有害内容中。作者认为,这种反复接触可能会使表情符号与有害内容之间的关联正常化,从而鼓励模型遵循有害提示,而不是屏蔽它们。

总之,这些发现表明,内部处理怪癖和有偏见的预训练数据都导致了表情符号在绕过安全措施方面具有惊人的有效性。

结论

使用其他输入法尝试越狱 LLM 的情况并不少见。例如,近年来,十六进制编码就被用来绕过 ChatGPT 的过滤器。问题似乎在于使用基于文本的语言来限定传入请求和传出响应。

就表情符号而言,一个隐藏的、违反规则的含义似乎可以被引入到话语中而不受惩罚或干预,因为它的传输方式并非正统。人们可能会认为,基于 CLIP 的音译技术会干预所有图片上传,这样冒犯性或侵权的内容最终都会成为可举报的文本。

显然情况并非如此,至少就目前研究的主流LLM而言;它们的语言障碍似乎很脆弱,而且以文本为中心。可以想象,对内容进行更广泛的解读(例如,通过研究热图激活)会带来处理和/或带宽成本,这可能会使此类方法过于昂贵,不切实际,此外还存在其他可能的限制和考虑因素。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-08-15

2025-08-14

2025-08-13

商业赞助

点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其亮出洲际导弹

求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其亮出洲际导弹

光辉与阴暗
2026-05-07 15:23:40
去博物馆看望辛追:专家的“栩栩如生”,为何却是游客的惊悚体验?(图片脱敏版)

去博物馆看望辛追:专家的“栩栩如生”,为何却是游客的惊悚体验?(图片脱敏版)

传统服饰
2026-05-07 09:19:51
5月“天然通便王”,比香蕉强10倍!经常吃一点,清空黑宿便!

5月“天然通便王”,比香蕉强10倍!经常吃一点,清空黑宿便!

江江食研社
2026-05-07 21:30:07
2名英国公民感染汉坦病毒

2名英国公民感染汉坦病毒

新京报
2026-05-08 14:33:11
消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

财联社
2026-05-08 05:07:05
5月8日早评:沪指逼近11年新高,接下来怎么操作?

5月8日早评:沪指逼近11年新高,接下来怎么操作?

小白鸽财经
2026-05-08 09:35:49
徐正源:队里很多球员的体能水平未能匹配中超的竞争强度

徐正源:队里很多球员的体能水平未能匹配中超的竞争强度

懂球帝
2026-05-08 08:26:06
黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

素素娱乐
2026-05-08 09:01:53
在香港募款336万被嘲“太寒酸”,李亚鹏回应:刚好够救河南平顶山400多个孩子,这是老天安排

在香港募款336万被嘲“太寒酸”,李亚鹏回应:刚好够救河南平顶山400多个孩子,这是老天安排

深圳晚报
2026-05-08 19:14:54
为什么你的俯卧撑毫无增肌效果?90%的人都做错了“手肘夹角”

为什么你的俯卧撑毫无增肌效果?90%的人都做错了“手肘夹角”

解说阿洎
2026-05-08 11:14:28
强烈信号!美国务卿鲁比奥正式宣布,特朗普访华将讨论台湾问题

强烈信号!美国务卿鲁比奥正式宣布,特朗普访华将讨论台湾问题

一念痴狂
2026-05-07 15:57:04
世乒赛!国乒男队迎来重大利好,最大劲敌2:3出局,胜利在望!

世乒赛!国乒男队迎来重大利好,最大劲敌2:3出局,胜利在望!

海阔山遥YAO
2026-05-08 20:05:45
诺兰新作,炸翻外网:他想让你相信男人们会为了这女人发动战争

诺兰新作,炸翻外网:他想让你相信男人们会为了这女人发动战争

文娱春秋Plus
2026-05-08 14:46:34
这就是赤裸裸的现实!中国邮政退休工资,才是真正的普通人天花板

这就是赤裸裸的现实!中国邮政退休工资,才是真正的普通人天花板

椰青美食分享
2026-05-08 14:05:19
广州飞新加坡航班遇严重颠簸:剧烈起伏如坐过山车,紧急迫降巴淡岛

广州飞新加坡航班遇严重颠簸:剧烈起伏如坐过山车,紧急迫降巴淡岛

新加坡眼
2026-05-08 17:55:20
CBA又闹出大笑话,卫冕冠军太拉胯,球迷怒喷没有裁判早淘汰

CBA又闹出大笑话,卫冕冠军太拉胯,球迷怒喷没有裁判早淘汰

宗介说体育
2026-05-08 10:01:46
王心凌演出被镭射激光烫到腿,现场痛到尖叫,主办方致歉!医生:突发烫伤建议第一时间进行冷敷或冷水冲洗

王心凌演出被镭射激光烫到腿,现场痛到尖叫,主办方致歉!医生:突发烫伤建议第一时间进行冷敷或冷水冲洗

鲁中晨报
2026-05-06 15:38:22
心理学上说:如果一个人对伴侣百般嫌弃、动辄冷战,对朋友却体贴入微、有求必应,不是婚姻死了,根源无外乎有两点

心理学上说:如果一个人对伴侣百般嫌弃、动辄冷战,对朋友却体贴入微、有求必应,不是婚姻死了,根源无外乎有两点

心理观察局
2026-05-08 09:22:11
八路军最强的师,拥有30个师的兵力,八年抗战下来歼灭日伪军42万

八路军最强的师,拥有30个师的兵力,八年抗战下来歼灭日伪军42万

凡人侃史
2026-05-07 22:41:20
巴萨赢麻了!主场踢皇马:打平即夺冠 票房1500万刷新纪录

巴萨赢麻了!主场踢皇马:打平即夺冠 票房1500万刷新纪录

叶青足球世界
2026-05-08 20:23:33
2026-05-08 22:47:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

"4只皮皮虾1035元"消费者再次发声 否认"想吃白食"

头条要闻

"4只皮皮虾1035元"消费者再次发声 否认"想吃白食"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

家居
手机
健康
旅游
公开课

家居要闻

流动的尺度 打破家的形式主义

手机要闻

iQOO 15T官宣本月发布!天玑9500+8000mAh,性能续航都太顶了

干细胞能让人“返老还童”吗

旅游要闻

我们这样讲家乡|马未都山东行——10天行程,亿次“相遇”,一生牵挂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版