网易首页 > 网易号 > 正文 申请入驻

在中国文言文面前,全球顶级模型全线溃败

0
分享至

文|硅基星芒

OpenClaw大火之际,工信部的安全预警接踵而至,让这场跟风的潮流稍微冷静了一些。

在AI智能体接管电脑的时代,安全是每个人都无法忽视的问题。

而智能体是否安全,很大程度上取决于充当"大脑"的大语言模型是否安全。

若是安全限制不够,模型很容易输出有害的信息,国外因为AI而引起诉讼已经不再稀奇。

若是安全限制过度,模型的能力又会大打折扣,想要AI输出有创意的想法就成了痴人说梦。

而在这个问题上,国产的DeepSeek和马斯克的Grok可以说是两个极端。

Grok主打一个来者不拒,对于大部分内容都没有做出任何限制,这使它成为了娱乐领域的一把好手,在X平台上可以随意调用更是让它无处不在。

DeepSeek则正好与之相反,只要用户的提问中包含任何疑似敏感的词汇,它都会直接拒绝回答,确保不会生成任何有害信息,安全第一。但这样做的代价,是让模型的功能受到了极大的限制。

为了绕开限制,很多AI爱好者也提出了不同的办法,比如更换为英文、调整语序、修改表达方式等,但随着对齐机制的升级,这些方法也逐渐被成功防御。

但是,中国传统文化博大精深。

近期,在一篇被人工智能顶级会议ICLR 2026接收的重磅论文中,提出了一个令人意想不到的结论:

文言文可以轻松绕过当前最先进大模型的安全防御机制,实现接近100%的"越狱"成功率!

用魔法打败魔法,中国流传下来的古老智慧对现代AI安全机制实现了降维打击。

01 大模型的"文化盲区"

抛开Grok不谈,随着大语言模型普及并成为智能体的底层基础设施,国内外的AI企业普遍提升了对AI安全的重视程度。

国内模型自然不必多说,国外的Anthropic和Google也经常会发布安全相关的文章和规则,时刻更新AI的对齐机制以防止其生成有害、暴力的内容。

就像前面说的,黑客们最常用的手段就是用复杂的英文提示词去套路AI,但面对顶级的模型,这个办法如今已经接近失效。

跨语言的安全研究表明,非英语环境往往是AI的软肋,因为大部分模型在训练时都使用了大量的英文语料。

然而,如果语料太少,像是某些已经没有多少人在使用的小语种,大模型其实根本听不懂,更别提绕开安全限制了。

但这个时候,文言文这个流传了上千年的语言,成为了完美的漏洞。

作为中国古代长期使用的正式书面语言,文言文拥有大量的历史文献可用作大模型的训练语料。

在大语言模型普及的过程中,我们在各大社交平台上应该都刷到过AI生成的文言文,这就证明大模型已经具备对文言文的理解能力。

至于为什么文言文能够作为完美漏洞,让针对现代语言设计的安全机制几乎完全失效,主要是因为以下三大特性:

一是语义高度凝练:文言文虽然篇幅短,但往往包含庞大的信息量;

二是多义与歧义:同一句话甚至同一个词都可以有多种解读方式,非黑即白的规则很难判定一句话是否违规;

三是隐喻与修辞:借代、典故、象征都是写文言文再常见不过的方式,古代的词语也可以包含现代的含义。

如此一来,大模型就变成了高考语文考场上对文言文束手无策的学生。它或许能理解用户危险的意图,但内置的"安全警报器"却看不懂文言文中的暗藏玄机。

02 CC-BOS框架制造完美"越狱"

为了测试这个漏洞,研究团队提出了名为CC-BOS(基于文言文语境的仿生搜索越狱)的框架,同时涵盖了语文和生物两方面知识。

面对构建在复杂神经网络之上的大模型,枚举法显得过于盲目。

研究团队首先把大模型现有的弱点拆分成八个维度,并针对不同的维度设计策略组合来考验大模型是否能坚守安全底线。


这个研究思路的本质其实就是提示词工程,比如其中的一些维度:

角色认同(Role Identity):给大模型指定一个古代身份;

行为引导(Behavioral Guidance):引导大模型用类似献计的方式输出回复;

隐喻映射(Metaphor Mapping):将现代的敏感概念替换为古代词汇;

表达风格(Expression Style):要求大模型用辞、赋等特定的文体和句式作答;

除此之外,还有触发模式、机制、知识关联和情景设置维度。

简单来说,就是用各种限制让大模型穿越到古代,再以古人的身份和它交流,以此混淆现代安全检测器的视听。

当8个维度结合在一起,就产生了上万种策略组合,新的问题又出现了:如何寻找那些最有效的绕开安全防御机制的策略?

研究人员此时又利用了生物学的一种高效寻觅机制:仿生果蝇算法(Fruit Fly Optimization)。

一群赛博果蝇,要在几万种提示词生成策略中"大海捞针",就必须有高效的分工合作机制。

第一步是嗅觉上的搜索,也就是让果蝇依靠嗅觉判断水果的哪个部分更香,本质上则是局部微调。

原理很简单,系统先随机生成几个提示词丢给大模型进行测试,一旦其中的一条能让安全机制稍显懈怠,算法就可以在这条提示词的基础上开始微调。

微调的方式,或是改变其中的部分词汇,或是调整提示词语序,但整体变动幅度必须被控制在一个较小的区间内。这个过程将重复多次,系统将会持续观察效果是否有所提升。

第二步是视觉上的搜索,一只果蝇发现了美食后会迅速引导同伴前来享用。

系统一旦发现一个相对有效的提示词组合,算法就会立刻做出调整,所有新生成的提示词都会向这个"高分答案"靠拢,在此基础上继续优化提示词,直至攻破大模型的安全防御机制。

最后,如果经过数次优化的提示词还是绕不开安全防御机制该怎么办?研究团队还考虑到了柯西突变,简单来说就是掀桌子重来。

这种情况实际上相当常见,即使黑客们现有的攻击手段失效,但大模型的安全防御机制存在漏洞的事实大家心知肚明。

因此,算法在遇到这种情况时,会果断抛弃当前的思路,重新尝试一种与原先截然不同的策略,这种超大跨度的转变反而往往能命中大模型意想不到的安全盲区。

CC-BOS这种"基于语文知识的生物学方法"堪称艺术,因为它极大程度模仿了生物行动的逻辑,却又完全不需要人工干预。

微调试探、集群攻击,实在不行就及时换赛道,这些赛博果蝇能够在上万种文言文提示词中持续进行迭代和优化,而在海量的尝试中,总会有一次精准命中大模型的软肋,最终彻底摧毁其安全防线。

03顶级模型的全线溃败

看似有些荒唐的想法,却带来了让人大跌眼镜的结果。

研究团队选用了去年撰写论文时最先进的六款大模型:GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而这些曾经的顶级模型,在最具权威性的有害行为基准测试AdvBench中的表现令人十分担忧:

首先是攻击成功率达到了100%。


无论是反复强调安全策略的OpenAI,还是经常进行安全研究的Anthropic,在CC-BOS的文言文攻击下,六款大模型的防线全部被洞穿。

即便是中文能力更强、理应更能理解文言文的两款国产模型,也未能幸免。

更可怕的是接近于"一击必杀"的攻击效率。


过去的自动化越狱攻击算法更多依靠频繁的尝试实现突围,往往要对模型进行50-90次以上的反复试探才能成功。

但CC-BOS的平均查询次数是恐怖的1.12-2.38次。换句话说,不超过3次就能成功的攻击手段,意味着算力成本接近于零,同时具备极强的隐蔽性,在大量正常对话中很难被识别出来。

研究人员最后还测试了提示词的可迁移性。


用GPT-4o作为陪练生成的"文言文攻击"提示词,放到那些没参加这次攻防演练的大模型身上同样适用,成功率仍然保持在80%-96%的超高水平。

因此,文言文越狱绝不是部分模型存在的特定Bug,而是大语言模型的通用底层漏洞。

04结语:智能体时代的"生死大考"

两千年来竹简中流传下来的智慧,轻松黑掉了迄今为止人类最先进的硅基大脑。

结合当下AI时代的现实来看,它敲响的是一声刺耳的行业警钟。

论文虽然写的是大语言模型,但别忘了,AI已经不再是那个只能聊天的网页对话框。

说到这里,就又不得不提到OpenClaw。

对于这个产品的看法,先前的文章中已经写过,这里不再多谈,我们只看事实。

各大互联网巨头疯狂下场布局,国内部分省市甚至出台专项政策扶持技术落地。

可以推断,在不久的未来,无论是主动拥抱还是被动升级,智能体深度接管电脑、手机和各类终端设备,必然是不可逆转的常态。

只要当下智能体的设计范式不发生根本性转变,大语言模型在智能体中的核心地位就稳如泰山。

过去,行业内总在担忧智能体的安全问题,曾经爆出来的智能体误删Gmail邮件事件也总是被当成意外,一笑而过。

但这次的文言文越狱,直接触及了底层的安全机制,令人细思极恐:一个大模型可以被文言文轻松骗过,却拥有用户电脑的操作系统级权限。

有心之人根本不需要编写复杂的木马病毒,只需要通过网页、邮件甚至PDF在屏幕上显示一段精心构造的文言文指令,原本负责保护用户隐私的安全机制就会瞬间土崩瓦解。

原本用来自动工作的智能体,谈笑之间就会不自觉地把电脑上各种私密文件打包发送出去。防线一旦在语言理解层面崩溃,物理世界的资产就如同探囊取物。

更令人不寒而栗的事实在于,文言文绝非大语言模型唯一的底层漏洞。

复杂的神经网络把AI变成了难以窥探的黑盒,文言文只是恰好被研究人员探明的一个角落,其他地方大概率还隐藏着无数个尚未被发现的安全盲区。

文言文越狱成功,证明了现有的安全对齐机制还处于浅层过滤阶段。

在我们将数字生活的最高权限彻底交给智能体之前,如何设计更有效的安全机制,已经成为整个AI行业必须共同面对的生死大考。

然而,如今养虾的浪潮,总让我觉得下面这段话早晚会成为现实。


注:计算机领域最臭名昭著的Linux/Unix删库跑路命令

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Claude 开始收“代码审核税”:一条 PR 25 美元,大厂一年或花百万,还得上交整个代码库

Claude 开始收“代码审核税”:一条 PR 25 美元,大厂一年或花百万,还得上交整个代码库

InfoQ
2026-03-10 14:38:35
如果核聚变是条死路,这个方法或将成为唯一希望

如果核聚变是条死路,这个方法或将成为唯一希望

科学声音
2026-03-10 17:13:51
壳厂提前泄密!苹果iPhone Fold完整设计曝光

壳厂提前泄密!苹果iPhone Fold完整设计曝光

PChome电脑之家
2026-03-10 09:49:46
伊朗官方变相确认:新最高领袖哈梅内伊志子遭空袭重伤

伊朗官方变相确认:新最高领袖哈梅内伊志子遭空袭重伤

老马拉车莫少装
2026-03-11 07:29:26
意外!伊朗第34波反击再出狠招,重武器精准打击,特朗普欲收手

意外!伊朗第34波反击再出狠招,重武器精准打击,特朗普欲收手

王楔晓
2026-03-11 17:51:55
张兰发释怀文!回应儿子喊娘改嫁,汪小菲扭头回台北,洋总道实情

张兰发释怀文!回应儿子喊娘改嫁,汪小菲扭头回台北,洋总道实情

离离言几许
2026-03-10 22:29:06
《流浪地球3》即将杀青,李雪健笑容吓人,沈腾拿枪成最大惊喜

《流浪地球3》即将杀青,李雪健笑容吓人,沈腾拿枪成最大惊喜

娱乐圈十三太保
2026-03-10 17:26:54
武汉街头惨案警示:“幸福者退让” 不是软弱无能,而是不值得

武汉街头惨案警示:“幸福者退让” 不是软弱无能,而是不值得

番外行
2026-03-11 08:40:34
又白忙活了?广东被截胡,强援官宣签约,新球队曝光,朱芳雨无奈

又白忙活了?广东被截胡,强援官宣签约,新球队曝光,朱芳雨无奈

萌兰聊个球
2026-03-11 09:20:08
你是咋意识到儿子和女儿是有区别的?网友:女儿更需要好好爱护

你是咋意识到儿子和女儿是有区别的?网友:女儿更需要好好爱护

带你感受人间冷暖
2026-02-20 21:18:49
41集谍战剧来袭,连续6天,收视率第一,剧情高能,全员演技派

41集谍战剧来袭,连续6天,收视率第一,剧情高能,全员演技派

乐枫电影
2026-03-11 15:10:13
刚刚,深圳全市预警生效!

刚刚,深圳全市预警生效!

深圳晚报
2026-03-11 16:37:46
景甜穿透视裙,深V抹胸高定,自带光晕!

景甜穿透视裙,深V抹胸高定,自带光晕!

吃瓜党二号头目
2026-03-06 10:08:25
身在前线才感觉难办!美司令:中美开战,中方火箭军将相当棘手

身在前线才感觉难办!美司令:中美开战,中方火箭军将相当棘手

寄星夜幕星河
2026-03-11 18:28:04
北大教授:不建议孩子上这 5 类兴趣班,不仅费时费钱,作用也不大

北大教授:不建议孩子上这 5 类兴趣班,不仅费时费钱,作用也不大

音乐时光的娱乐
2026-03-10 13:13:32
中国人口绝不能到亿级体量之下

中国人口绝不能到亿级体量之下

文青大叔说
2026-03-08 09:19:26
美国祭出对华大杀招,切换精准打击模式,直击中国核心要害

美国祭出对华大杀招,切换精准打击模式,直击中国核心要害

通鉴史智
2026-03-09 10:05:35
巴萨财务主管:为签耐克的赞助合同向中间人支付佣金2800万欧

巴萨财务主管:为签耐克的赞助合同向中间人支付佣金2800万欧

懂球帝
2026-03-10 22:32:21
齐达内+大罗+苏克 1998阵容强到离谱!但也比不过卡塔尔的梅西?

齐达内+大罗+苏克 1998阵容强到离谱!但也比不过卡塔尔的梅西?

体坛八点半的那些事儿
2026-03-11 18:33:36
贬低小米宝马女主播是门店头牌,门店账号全部都是她的视频

贬低小米宝马女主播是门店头牌,门店账号全部都是她的视频

映射生活的身影
2026-03-11 15:50:23
2026-03-11 19:16:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
128011文章数 193703关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

重庆13岁少年"街舞世界杯"夺冠 最初目标仅是进下一轮

头条要闻

重庆13岁少年"街舞世界杯"夺冠 最初目标仅是进下一轮

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

教育
时尚
亲子
艺术
旅游

教育要闻

坚持不住的晚自习

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

亲子要闻

宝蓝在公园玩沙子,玩具突然变成了大玩偶陪宝蓝玩,好有趣~

艺术要闻

这组剪纸太美了!

旅游要闻

美团旅行:“春假经济”释放消费潜能,大型主题乐园成家庭出游热门目的地

无障碍浏览 进入关怀版