网易首页 > 网易号 > 正文 申请入驻

在中国文言文面前,全球顶级模型全线溃败

0
分享至


OpenClaw大火之际,工信部的安全预警接踵而至,让这场跟风的潮流稍微冷静了一些。

在AI智能体接管电脑的时代,安全是每个人都无法忽视的问题。

而智能体是否安全,很大程度上取决于充当“大脑”的大语言模型是否安全。

若是安全限制不够,模型很容易输出有害的信息,国外因为AI而引起诉讼已经不再稀奇。

若是安全限制过度,模型的能力又会大打折扣,想要AI输出有创意的想法就成了痴人说梦。

而在这个问题上,国产的DeepSeek和马斯克的Grok可以说是两个极端。

Grok主打一个来者不拒,对于大部分内容都没有做出任何限制,这使它成为了娱乐领域的一把好手,在X平台上可以随意调用更是让它无处不在。

DeepSeek则正好与之相反,只要用户的提问中包含任何疑似敏感的词汇,它都会直接拒绝回答,确保不会生成任何有害信息,安全第一。但这样做的代价,是让模型的功能受到了极大的限制。

为了绕开限制,很多AI爱好者也提出了不同的办法,比如更换为英文、调整语序、修改表达方式等,但随着对齐机制的升级,这些方法也逐渐被成功防御。

但是,中国传统文化博大精深。

近期,在一篇被人工智能顶级会议ICLR 2026接收的重磅论文中,提出了一个令人意想不到的结论:

文言文可以轻松绕过当前最先进大模型的安全防御机制,实现接近100%的“越狱”成功率!

用魔法打败魔法,中国流传下来的古老智慧对现代AI安全机制实现了降维打击。

01

大模型的“文化盲区”

抛开Grok不谈,随着大语言模型普及并成为智能体的底层基础设施,国内外的AI企业普遍提升了对AI安全的重视程度。

国内模型自然不必多说,国外的Anthropic和Google也经常会发布安全相关的文章和规则,时刻更新AI的对齐机制以防止其生成有害、暴力的内容。

就像前面说的,黑客们最常用的手段就是用复杂的英文提示词去套路AI,但面对顶级的模型,这个办法如今已经接近失效。

跨语言的安全研究表明,非英语环境往往是AI的软肋,因为大部分模型在训练时都使用了大量的英文语料。

然而,如果语料太少,像是某些已经没有多少人在使用的小语种,大模型其实根本听不懂,更别提绕开安全限制了。

但这个时候,文言文这个流传了上千年的语言,成为了完美的漏洞。

作为中国古代长期使用的正式书面语言,文言文拥有大量的历史文献可用作大模型的训练语料。

在大语言模型普及的过程中,我们在各大社交平台上应该都刷到过AI生成的文言文,这就证明大模型已经具备对文言文的理解能力。

至于为什么文言文能够作为完美漏洞,让针对现代语言设计的安全机制几乎完全失效,主要是因为以下三大特性:

一是语义高度凝练:文言文虽然篇幅短,但往往包含庞大的信息量;

二是多义与歧义:同一句话甚至同一个词都可以有多种解读方式,非黑即白的规则很难判定一句话是否违规;

三是隐喻与修辞:借代、典故、象征都是写文言文再常见不过的方式,古代的词语也可以包含现代的含义。

如此一来,大模型就变成了高考语文考场上对文言文束手无策的学生。它或许能理解用户危险的意图,但内置的“安全警报器”却看不懂文言文中的暗藏玄机。

02

CC-BOS框架制造完美“越狱”

为了测试这个漏洞,研究团队提出了名为CC-BOS(基于文言文语境的仿生搜索越狱)的框架,同时涵盖了语文和生物两方面知识。

面对构建在复杂神经网络之上的大模型,枚举法显得过于盲目。

研究团队首先把大模型现有的弱点拆分成八个维度,并针对不同的维度设计策略组合来考验大模型是否能坚守安全底线。


这个研究思路的本质其实就是提示词工程,比如其中的一些维度:

角色认同(Role Identity):给大模型指定一个古代身份;

行为引导(Behavioral Guidance):引导大模型用类似献计的方式输出回复;

隐喻映射(Metaphor Mapping):将现代的敏感概念替换为古代词汇;

表达风格(Expression Style):要求大模型用辞、赋等特定的文体和句式作答;

除此之外,还有触发模式、机制、知识关联和情景设置维度。

简单来说,就是用各种限制让大模型穿越到古代,再以古人的身份和它交流,以此混淆现代安全检测器的视听。

当8个维度结合在一起,就产生了上万种策略组合,新的问题又出现了:如何寻找那些最有效的绕开安全防御机制的策略?

研究人员此时又利用了生物学的一种高效寻觅机制:仿生果蝇算法(Fruit Fly Optimization)。

一群赛博果蝇,要在几万种提示词生成策略中“大海捞针”,就必须有高效的分工合作机制。

第一步是嗅觉上的搜索,也就是让果蝇依靠嗅觉判断水果的哪个部分更香,本质上则是局部微调。

原理很简单,系统先随机生成几个提示词丢给大模型进行测试,一旦其中的一条能让安全机制稍显懈怠,算法就可以在这条提示词的基础上开始微调。

微调的方式,或是改变其中的部分词汇,或是调整提示词语序,但整体变动幅度必须被控制在一个较小的区间内。这个过程将重复多次,系统将会持续观察效果是否有所提升。

第二步是视觉上的搜索,一只果蝇发现了美食后会迅速引导同伴前来享用。

系统一旦发现一个相对有效的提示词组合,算法就会立刻做出调整,所有新生成的提示词都会向这个“高分答案”靠拢,在此基础上继续优化提示词,直至攻破大模型的安全防御机制。

最后,如果经过数次优化的提示词还是绕不开安全防御机制该怎么办?研究团队还考虑到了柯西突变,简单来说就是掀桌子重来。

这种情况实际上相当常见,即使黑客们现有的攻击手段失效,但大模型的安全防御机制存在漏洞的事实大家心知肚明。

因此,算法在遇到这种情况时,会果断抛弃当前的思路,重新尝试一种与原先截然不同的策略,这种超大跨度的转变反而往往能命中大模型意想不到的安全盲区。

CC-BOS这种“基于语文知识的生物学方法”堪称艺术,因为它极大程度模仿了生物行动的逻辑,却又完全不需要人工干预。

微调试探、集群攻击,实在不行就及时换赛道,这些赛博果蝇能够在上万种文言文提示词中持续进行迭代和优化,而在海量的尝试中,总会有一次精准命中大模型的软肋,最终彻底摧毁其安全防线。

03

顶级模型的全线溃败

看似有些荒唐的想法,却带来了让人大跌眼镜的结果。

研究团队选用了去年撰写论文时最先进的六款大模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而这些曾经的顶级模型,在最具权威性的有害行为基准测试AdvBench中的表现令人十分担忧:

首先是攻击成功率达到了100%


无论是反复强调安全策略的OpenAI,还是经常进行安全研究的Anthropic,在CC-BOS的文言文攻击下,六款大模型的防线全部被洞穿。

即便是中文能力更强、理应更能理解文言文的两款国产模型,也未能幸免。

更可怕的是接近于“一击必杀”的攻击效率。


过去的自动化越狱攻击算法更多依靠频繁的尝试实现突围,往往要对模型进行50-90次以上的反复试探才能成功。

CC-BOS的平均查询次数是恐怖的1.12-2.38次。换句话说,不超过3次就能成功的攻击手段,意味着算力成本接近于零,同时具备极强的隐蔽性,在大量正常对话中很难被识别出来。

研究人员最后还测试了提示词的可迁移性。


用GPT-4o作为陪练生成的“文言文攻击”提示词,放到那些没参加这次攻防演练的大模型身上同样适用,成功率仍然保持在80%-96%的超高水平。

因此,文言文越狱绝不是部分模型存在的特定Bug,而是大语言模型的通用底层漏洞。

04

结语:智能体时代的“生死大考”

两千年来竹简中流传下来的智慧,轻松黑掉了迄今为止人类最先进的硅基大脑。

结合当下AI时代的现实来看,它敲响的是一声刺耳的行业警钟。

论文虽然写的是大语言模型,但别忘了,AI已经不再是那个只能聊天的网页对话框。

说到这里,就又不得不提到OpenClaw。

对于这个产品的看法,先前的文章中已经写过,这里不再多谈,我们只看事实。

各大互联网巨头疯狂下场布局,国内部分省市甚至出台专项政策扶持技术落地。

可以推断,在不久的未来,无论是主动拥抱还是被动升级,智能体深度接管电脑、手机和各类终端设备,必然是不可逆转的常态。

只要当下智能体的设计范式不发生根本性转变,大语言模型在智能体中的核心地位就稳如泰山。

过去,行业内总在担忧智能体的安全问题,曾经爆出来的智能体误删Gmail邮件事件也总是被当成意外,一笑而过。

但这次的文言文越狱,直接触及了底层的安全机制,令人细思极恐:一个大模型可以被文言文轻松骗过,却拥有用户电脑的操作系统级权限。

有心之人根本不需要编写复杂的木马病毒,只需要通过网页、邮件甚至PDF在屏幕上显示一段精心构造的文言文指令,原本负责保护用户隐私的安全机制就会瞬间土崩瓦解。

原本用来自动工作的智能体,谈笑之间就会不自觉地把电脑上各种私密文件打包发送出去。防线一旦在语言理解层面崩溃,物理世界的资产就如同探囊取物。

更令人不寒而栗的事实在于,文言文绝非大语言模型唯一的底层漏洞。

复杂的神经网络把AI变成了难以窥探的黑盒,文言文只是恰好被研究人员探明的一个角落,其他地方大概率还隐藏着无数个尚未被发现的安全盲区。

文言文越狱成功,证明了现有的安全对齐机制还处于浅层过滤阶段。

在我们将数字生活的最高权限彻底交给智能体之前,如何设计更有效的安全机制,已经成为整个AI行业必须共同面对的生死大考。

然而,如今养虾的浪潮,总让我觉得下面这段话早晚会成为现实。



注:计算机领域最臭名昭著的
Linux/Unix
删库跑路命令

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

侧身凌空斩
2026-03-13 21:43:13
伊朗宣布与真主党发动联合导弹行动

伊朗宣布与真主党发动联合导弹行动

参考消息
2026-03-12 20:49:05
王思懿在采访里亲口承认,当年拍水浒时和演武松的丁海峰真动了心

王思懿在采访里亲口承认,当年拍水浒时和演武松的丁海峰真动了心

老吴教育课堂
2026-03-12 00:43:30
安切洛蒂点兵!巴西18人基本确定出战世界杯:内马尔悬了

安切洛蒂点兵!巴西18人基本确定出战世界杯:内马尔悬了

叶青足球世界
2026-03-13 09:08:43
美国向中国下最后通牒:不同意就打?美国这是蹬鼻子上脸!

美国向中国下最后通牒:不同意就打?美国这是蹬鼻子上脸!

南权先生
2026-03-13 15:53:58
对比古龙小说与金庸、梁羽生小说的开头,真如萤火之光比日月之辉

对比古龙小说与金庸、梁羽生小说的开头,真如萤火之光比日月之辉

青霄
2026-03-13 18:22:23
巧合?伊朗最高领袖刚发表首份声明,美军就掉了一架大型加油机

巧合?伊朗最高领袖刚发表首份声明,美军就掉了一架大型加油机

枢密院十号
2026-03-13 18:49:02
行程有变,特朗普访华规格缩水,中方对美说不,美国先遣队已离京

行程有变,特朗普访华规格缩水,中方对美说不,美国先遣队已离京

起喜电影
2026-03-13 17:25:32
2026女足亚洲杯赛后评球,八强赛澳大利亚vs朝鲜

2026女足亚洲杯赛后评球,八强赛澳大利亚vs朝鲜

酷马西者野
2026-03-13 21:37:17
香港地勤人员被举报歧视普通话乘客,身份曝光,亚航通报:已解雇

香港地勤人员被举报歧视普通话乘客,身份曝光,亚航通报:已解雇

一盅情怀
2026-03-12 17:42:56
广州大学人工智能学院院长杨春生病逝!同事悼念称“很突然”

广州大学人工智能学院院长杨春生病逝!同事悼念称“很突然”

南方都市报
2026-03-13 19:06:12
G联赛:杨瀚森背靠背16+13+2+1帽 难阻混音遭快船双杀

G联赛:杨瀚森背靠背16+13+2+1帽 难阻混音遭快船双杀

醉卧浮生
2026-03-13 12:33:30
委内瑞拉代总统访问邻国计划突然取消

委内瑞拉代总统访问邻国计划突然取消

每日经济新闻
2026-03-13 16:10:20
新加坡终于知道怕了,退居二线的李显龙,给自己的继任者敲响警钟

新加坡终于知道怕了,退居二线的李显龙,给自己的继任者敲响警钟

壹知眠羊
2026-03-13 07:22:27
上海市中心正在“悄悄转移”这3个地方,正在变成“新中心”!

上海市中心正在“悄悄转移”这3个地方,正在变成“新中心”!

我不叫阿哏
2026-03-12 19:40:23
90年中越和谈,武元甲来华想见杨得志,杨却严肃道:我不可能见他

90年中越和谈,武元甲来华想见杨得志,杨却严肃道:我不可能见他

元哥说历史
2026-03-12 14:25:04
美团王兴说努力减少登味,让内部不要再叫兴哥,“叫我王兴就好”

美团王兴说努力减少登味,让内部不要再叫兴哥,“叫我王兴就好”

潇湘晨报
2026-03-13 17:15:13
陈鲁豫:56岁的单身启示录——两段婚姻、半生挣扎与一场自我救赎

陈鲁豫:56岁的单身启示录——两段婚姻、半生挣扎与一场自我救赎

ENEN娱乐地图
2026-02-16 18:17:59
成都夫妻遭代驾套路!几句话点醒众人,喝酒开车有多险?

成都夫妻遭代驾套路!几句话点醒众人,喝酒开车有多险?

今日搞笑分享
2026-03-13 15:42:14
火箭休赛期计划和鹈鹕完成4换5大交易!17+5后卫将加盟休斯顿!

火箭休赛期计划和鹈鹕完成4换5大交易!17+5后卫将加盟休斯顿!

去山野间追风
2026-03-13 14:26:19
2026-03-13 22:35:00
硅基星芒AI
硅基星芒AI
锦缎旗下人工智能研究与媒体服务平台
25文章数 2关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

小S复工录制 感谢贾永婕陪大S走到最后

财经要闻

中小银行定存利率落入“1”时代

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

数码
艺术
家居
旅游
本地

数码要闻

开源鸿蒙抢滩智慧家庭 电商巨头激战科技消费|直击AWE

艺术要闻

吴冠中:历代画竹大都缺乏厚度与深度

家居要闻

艺术之家 法式优雅

旅游要闻

火爆全网的“千里江山图”,在雅安这座茶山上|我心目中的“锦绣天府·安逸四川”

本地新闻

坐标北京,过敏季反向迁徒

无障碍浏览 进入关怀版