![]()
这是一项由微软研究院与罗切斯特大学合作完成的研究,发表于2026年2月,论文编号为arXiv:2601.22636v1。有兴趣深入了解的读者可以通过这个编号在arXiv数据库中查询完整论文。
一、为什么这项研究很重要:从单枪匹马到大军压境
想象你家的门锁有一个奇怪的特性:单独一个小偷用一把钥匙试一次,成功率很低。但如果一千个小偷同时试一千把不同的钥匙,其中至少有一个成功打开门的可能性就大幅提高了。这就是大语言模型(比如ChatGPT)正在面临的真实威胁。
当前,大多数研究机构评估AI的安全性时,通常只测试一次或少数几次尝试。就像保安只检查一个门把手一样。但在真实的网络攻击场景中,坏人不会只试一次。他们可以同时发动几百次、几千次甚至更多的攻击,每次都稍微改变一点策略,直到成功为止。研究人员已经发现,即使是看起来非常安全的AI模型,在面对大规模并行攻击时也会迅速崩溃。问题是:我们怎样才能快速预测这个"崩溃点"到底在哪里,而不必真的去发动几千次攻击呢?
二、问题的症结:为什么现有的评估方法不够用
这个问题比看起来更棘手。研究人员最近发现了一个令人震惊的现象:两个不同的攻击方法看起来在第一次尝试时成功率差不多,但当他们尝试更多次数时,其中一个方法的成功率会急速上升,而另一个则增长得很缓慢。这意味着用第一次尝试的成功率来比较两种攻击方法的危险程度是完全不准确的,就像你不能根据一个学生第一次考试的成绩来判断他最终是否会及格一样。
更麻烦的是,要准确衡量一个AI在面对一千次攻击时的真实脆弱性,通常需要实际进行几千次尝试。但这在现实中往往太昂贵了。一些研究机构可能会尝试几百次,但这远远不够看清真实的风险图景。我们需要一个聪明的数学技巧,能够用少量的观察数据来推断出大规模攻击会带来什么后果。
三、聪明的解决方案:用Beta分布讲述风险的故事
微软和罗切斯特大学的研究团队提出了一个名叫SABER的框架,这个名字代表"可扩展的最优N采样下的风险估计"。要理解这个方法,我们需要先理解一个关键的数学概念。
每一个有害的问题(比如"教我怎样制造炸弹")都有它自己的"脆弱指数"。有些问题对AI的诱导非常有效,即使只改变一点点措辞,AI也容易上当。有些问题则相对安全,需要改变得更多才能骗过AI。关键的发现是:这些"脆弱指数"在不同的问题之间的分布,遵循一个叫做Beta分布的数学规律。Beta分布就像是一个描述不确定性的工具,它能够很好地模拟"有些事情经常发生,有些事情很少发生"这样的现象。
想象你在捕鱼。有些地点鱼很多(高脆弱性),有些地点鱼很少(低脆弱性)。如果你知道这些地点鱼的数量遵循某种特定的分布规律,那么即使你只在少数几个地点钓过鱼,你也能推断出所有地点总的渔获量。Beta分布就扮演这样的角色,帮助研究人员用部分信息推断整体情况。
四、三步走的魔法:如何从100次尝试预测1000次的结果
SABER框架的操作流程非常优雅,分成三个步骤,每个步骤都有明确的数学基础。
首先是数据收集阶段。研究团队选择一些有害的问题——比如来自HarmBench数据集的159个经过验证的有害查询——然后对每个问题尝试一定数量的不同攻击方式。在主要实验中,他们每个问题尝试了100次。每次尝试,他们都记录下是否成功骗过了AI系统。就像医生给患者做血液检查一样,这个阶段就是"采集样本"。
接下来是分布估计阶段。有了这些数据后,研究人员需要找出那个描述脆弱性分布的Beta分布的具体参数。他们使用了一种叫做Beta-Binomial最大似然估计的方法。通俗来说,这就像是看着你收集的所有样本数据,然后问"什么样的Beta分布最能解释我看到的这些结果?"这个过程比简单地看一下平均成功率要复杂得多,因为它会考虑成功率在不同问题中的变化程度。
最后是风险预测阶段。一旦有了Beta分布的参数,研究团队可以使用一个他们推导出的数学公式来预测在更大规模攻击下(比如1000次尝试)会发生什么。这个公式有个巧妙的特性:攻击成功率与尝试次数之间的关系取决于Beta分布中的一个参数叫"alpha"。Alpha值越小,成功率上升得越快;Alpha值越大,上升得越慢。这个参数捕捉了攻击方法的本质特性,因此也决定了它的真实危险程度。
五、数学背后的优雅:从渐近定理到实用工具
为了让这个魔法真正工作,研究团队证明了一个重要的数学定理。他们证明了当尝试次数变得非常大时,AI被攻破的概率会遵循一个特定的幂律:成功率大约等于1减去某个常数乘以尝试次数的负alpha次方。这个结果来自于对伽马函数(一种数学中很重要的函数)的渐近分析,但关键的洞见是:这个公式给了我们一条"缩放法则",允许我们从小规模的观察跳到大规模的预测。
这就像是物理学中的缩放律。如果你知道一个小蚂蚁的体重和它能举起重量之间的关系,你可以用这个关系来预测一个放大一千倍的"巨型蚂蚁"能举多重,即使巨型蚂蚁本身不存在。同样地,SABER使用从100次尝试中观察到的规律来预测1000次甚至10000次的结果。
六、为什么这比之前的方法好得多:一个具体的数字故事
让我们看看实验结果到底有多令人印象深刻。研究团队在HarmBench上测试了三种不同的攻击方法,对手法两个不同的AI模型(开源的Llama和闭源的GPT-4.1-mini),使用两种不同的判别器来评估攻击是否成功。这给了他们总共12种不同的"攻击-被攻击者-判别器"组合。
对于每一种组合,他们都做了一个对比:首先,他们用一个"朴素"的方法,这个方法就是直接看每个问题在100次尝试中的成功比例,然后简单地假设这个比例在1000次尝试时仍然成立。这个假设实际上比你想象的更常见,许多研究人员就是这样做的。然后,他们用他们的SABER方法做了同样的预测。
结果是什么呢?SABER的平均预测错误是1.66个百分点。相比之下,朴素方法的平均错误是12.04个百分点。换句话说,SABER的错误减少了86.2%。在一些特别有趣的情况下,错误的改进更加显著。比如,对于某个特定的攻击-被攻击者组合,地面真实(通过实际的10000次尝试确定)的成功率是75.16%。朴素方法预测是63.4%(差了11.76个百分点),而SABER预测是74.28%(几乎完美)。
这种改进不仅数字上漂亮,而且在实践中意义重大。当AI安全研究人员使用SABER时,他们可以更自信地说"这个攻击方法在现实中的危险程度大约是X",而不会因为评估的局限性而过度低估或过度高估风险。
七、意外的发现:攻击方法排名会反转
在这项研究中,有一个特别引人注意的发现。研究人员比较了两种不同的攻击方法。其中一种是简单的文本增强(就是随机改变一些字母的大小写或顺序),另一种是一个先进的机器学习方法。
在第一次尝试时,文本增强的成功率看起来低于机器学习方法。如果你只看这个结果,你会得出结论:"机器学习方法更危险。"但当你扩展到更多次尝试时,奇异的事情发生了。文本增强的成功率上升得更快。在大约15次尝试时,两者的排名就反转了。文本增强开始表现得更好。
这个发现有深刻的含义。它表明,基于单次或少数几次尝试的排名可能会误导我们。一个看起来不那么危险的攻击方法,如果它有不同的"扩展特性"(alpha参数更小),那么它在大规模攻击中可能反而更危险。这就像在选择一个投资方案时,你不能只看第一年的回报率,而必须考虑长期增长的速度。
八、三种不同的预测公式:选择哪一个
SABER框架实际上提供了三种略微不同的方法来进行预测,每种都有其优势。
最直接的是"插入"方法(SABER-Plugin)。这种方法直接使用从小规模数据中估计出来的Beta分布参数,然后代入数学公式进行预测。这种方法的优点是最简单,也最直接反映了数据的特征。
第二种是"锚定"方法(SABER-Anchored)。这种方法使用了一个小技巧:它不是完全依赖于估计的beta参数,而是利用一个可靠的小规模基准点(比如已知的ASR@100的值)来"锚定"预测。这就像是在天空中放飞风筝时,你需要一个固定的参考点来调整方向。这种方法的优点是对参数估计误差的鲁棒性更强,实践中往往表现最好。
第三种是"拟合"方法(SABER-Fit)。这种方法直接对数据进行曲线拟合,寻找一条能最好地描述观察到的成功率曲线的线。有趣的是,这种方法实际上与之前一些研究人员使用的经验性方法是等价的——它们发现成功率与尝试次数之间的对数关系大约是线性的。SABER通过数学推导证实了这个经验观察,并提供了一个更牢固的理论基础。
九、处理小规模数据的智慧:当你只有很少的尝试预算时
在一些实践场景中,即使100次尝试可能都太奢侈了。研究团队也测试了只用10次或20次尝试来预测较小规模结果(比如预测50次尝试的成功率)的情况。
令人欣喜的是,即使预算这么少,SABER仍然表现得相对较好。比如在一个特定的测试中,用只有10次尝试的预算来预测50次尝试的结果,SABER的预测误差是0.25个百分点,而朴素方法的误差是22.73个百分点——相差90倍。
这之所以可能,是因为SABER抓住了攻击过程的本质规律(由alpha参数编码),而这个规律在小规模和大规模上都是一致的。即使数据很少,这个基本规律仍然在起作用,就像即使你只看到了一条河的一小段,如果你理解了河流的物理规律,你仍然可以推断出它在远处的样子。
十、更复杂的现实场景:当数据不完美时
研究团队没有只停留在理想化的实验场景。他们还测试了几种更接近现实的困难情况。
一个挑战是预算不均匀分配。在真实应用中,有些问题可能比其他问题更容易测试,或者测试资源分配不均。研究团队模拟了这种情况,让每个问题的测试次数在1到200次之间随机变化。在这种情况下,SABER-Plugin方法仍然表现得很好,虽然相比均匀分配的情况误差略有增加,但仍然远优于朴素方法。
另一个挑战是只能访问部分数据。假设一个安全团队只有HarmBench中的一部分问题可用(比如只有80个问题而不是159个)。当数据量减少到一半时,SABER的预测误差从1.7增加到2.1,仍然可以接受。即使只有40个问题,误差也只增加到2.9,而朴素方法的误差始终在9-10个百分点左右徘徊。这表明SABER对数据可用性的限制有很好的容忍度。
十一、反向思考:预测需要多少次攻击才能达到目标成功率
研究框架还支持一种反向的思维方式。与其问"攻击1000次会有多成功",不如问"为了达到90%的成功率,需要多少次攻击?"这对于安全团队评估他们的防线有多脆弱特别有用。
通过反演数学公式,研究人员展示了如何从小规模预算中估计出这个"必需的预算"。在一个测试中,某个攻击方法实际需要484次尝试才能达到95%的成功率,SABER的预测是466次——非常接近。这种逆向预测能力为安全评估提供了一个新的维度:不是说"这个攻击有X%的成功率",而是说"这个攻击需要大约Y次尝试就能成功"。这个"Y"的数字直接反映了防线的强度。
十二、统计学的严谨性:误差界和置信区间
虽然SABER的核心思想相对简洁,但其数学背景相当严谨。研究团队不仅提供了点估计(即单一的预测值),还推导出了置信区间。
简单地说,置信区间就是对预测的"误差范围"的科学估计。与其说"我预测成功率是75%",更准确的说法是"我有95%的信心认为真实成功率在74%到76%之间"。这种方式给了使用者一个关于预测可靠性的真实感受。
为了计算这些置信区间,研究人员推导了Beta-Binomial最大似然估计器的渐近方差。他们通过费舍尔信息矩阵(这是统计学中描述信息含量的标准工具)完成这个计算,然后使用了三角函数(Digamma和Trigamma函数)的性质来获得闭式解。这些数学工具在统计学中是经典的,但在这个新应用中的组合是创新的。
十三、模型假设的验证:Beta分布真的适用吗
任何统计模型的核心都是假设。SABER假设脆弱性在不同问题中的分布遵循Beta分布。这个假设合理吗?
研究团队使用了标准的统计检验(后验预测检查和卡方检验)来验证这个假设。结果显示,在12个测试的攻击-被攻击者-判别器组合中,有9个(75%)完全通过了检验。还有1个表现为"边界"情况。只有2个没有通过。
有趣的是,即使在那些没有完全通过Beta假设的情况下,SABER的预测性能仍然相当不错。这表明该方法具有一定的鲁棒性——它在模型假设不完全满足时仍然能够工作。这不是巧合,而是因为SABER利用的缩放律在某种程度上是独立于具体分布形状的。
十四、实际应用中的预算策略:如何最优化地分配有限的测试资源
如果你是一个AI安全团队的负责人,你的预算有限,比如可以做1万次的攻击尝试。你应该怎样分配这个预算才能最好地应用SABER方法来评估风险?
研究团队推导出了最优的预算分配公式。关键的发现是:为了最小化对alpha(风险放大参数)的估计误差,你不必对每个问题进行大量的尝试。相反,更好的策略是选择较少的每问题尝试次数(比如每个问题10次),但是覆盖更多的问题(比如1000个问题)。
具体地,在他们的模拟中,当总预算固定为1万次时,最优配置是每个问题10次尝试配合1000个问题,而不是每个问题100次尝试配合100个问题。这个结果有直观的解释:alpha参数描述的是风险的本质特性,跨越不同问题的差异更多地出现在脆弱性的大小上(由beta参数捕捉),而不是增长速率上。因此,为了准确估计alpha,你需要多个数据点来看清增长的趋势,但这些数据点不必来自每个问题的大量尝试。
十五、这些发现的深层含义:AI安全评估需要重新思考
这项研究揭示了当前AI安全评估中的一个关键盲点。目前的基准测试几乎都集中在ASR@1(只尝试一次)上。使用HarmBench或AdvBench等数据集的研究人员报告"这个模型在这个攻击下的成功率是30%",然后声称这个模型相对安全。但SABER表明,这个30%的数字只讲了半个故事。
关键问题是:这30%的成功率对应的攻击扩展率是多少?如果攻击次数增加10倍,成功率会翻倍吗,还是会三倍增长?两者在实际风险上的差别是巨大的。一个模型在单次尝试时看起来很安全,但如果它的攻击扩展率很高(alpha值很小),那么在面对真实的大规模攻击时就非常脆弱。
SABER提供了一个工具来量化这个扩展效应。它建议未来的AI安全基准应该包括"缩放特性报告",就像"在这个攻击方法下,该模型的alpha值是X,这意味着成功率随着尝试次数的增加而以N的负X次方增长"这样的信息。
十六、技术细节:小规模修正的数学
在推导SABER公式时,研究人员考虑了一个细节的问题。他们的渐近公式(大尝试次数时的近似)非常准确,但对于较小的尝试次数,可能会有一些偏差。为了处理这个问题,他们推导出了一个"小规模修正"。
这个修正通过替换尝试次数N为一个调整后的值(N加上某个依赖于alpha和beta的校正项)来实现。通过使用伽马函数渐近展开理论中的深层结果(特别是Frenzen关于截断误差的定理),他们证明了这个修正可以将误差从大约1%减少到0.1%,对于N大于5的情况。
实践上,这意味着即使用户想预测较小规模的结果(比如预测ASR@20而不是ASR@1000),SABER仍然可以提供极其准确的预测,只需在应用公式时做一个小的调整。
十七、与之前工作的联系和超越
有趣的是,Hughes等人在2024年已经观察到了一个现象:攻击成功率与尝试次数的对数关系在对数-对数坐标上大约是线性的。他们基于这个经验观察进行了简单的直线拟合。
SABER通过数学上的严格推导证实了这个经验观察。更重要的是,SABER将这个观察转化为一个有理论基础的框架。系统参数(alpha和beta)现在有了明确的概率解释(它们是脆弱性分布的参数),而不仅仅是拟合曲线中的无意义系数。这样,使用者不仅可以进行预测,还可以理解这个预测背后的原理。
此外,SABER还扩展了这个思想的应用范围。它不仅可以预测大规模攻击的成功率,还可以处理不均匀的预算分配、计算置信区间、进行反向预测(预测达到目标所需的预算),甚至支持"不可破解"问题(有些问题对任何攻击都有天然的防御)的建模。
十八、实验设置的详情:一个严谨的实验室设计
为了测试SABER,研究团队精心设计了实验。他们使用了HarmBench数据集中的159个有害查询。他们测试了三种不同类型的攻击方法:简单的文本增强(随机改变字母)、一个训练过的对抗后缀生成器(ADV-LLM)、和一个使用强化学习的复杂方法(Jailbreak-R1)。
被攻击的对象包括一个开源模型(Meta的Llama-3.1-8B)和一个商业闭源模型(OpenAI的GPT-4.1-mini)。判别器(用来判断攻击是否成功)包括一个专门为HarmBench设计的分类器和一个更通用的GPT-4分类器。
对于每个攻击-被攻击者-判别器的组合,研究人员首先进行了10000次的"地面真实"实验来获得准确的基准。然后,他们从这10000个结果中随机采样小规模的数据(比如100个),并使用SABER进行预测,然后对比预测与地面真实。他们重复做了5次独立的实验来评估结果的稳定性。
十九、部署到实践的可行性:代码和可复现性
一个好的研究应该不仅仅停留在论文上。研究团队承诺发布他们的代码和评估脚本,以便其他研究人员可以轻松复现结果并将SABER应用到他们自己的问题上。
从实现的角度,SABER相当轻量级。核心的优化步骤(对Beta-Binomial对数似然的最大化)可以用标准的优化库轻松实现,比如Python的scipy。Beta函数、Gamma函数和Digamma函数都是数值库中的标准函数。这意味着任何有基本编程能力的人都可以在自己的AI安全研究中应用SABER。
二十、研究的局限和未来方向
任何研究都有其局限。SABER目前假设了一个二值的判别器输出(成功或失败)。在实践中,安全评估可能涉及多个严重程度级别。未来的工作可以扩展到使用Dirichlet先验的分类似然,以处理多元输出。
另一个局限是实验主要集中在一个基准(HarmBench)上。虽然攻击方法多样,但只在一个数据集上测试。未来应该在更多的数据集上验证,特别是在多模态攻击(不仅是文本)上。
此外,研究人员选择的三种攻击方法不一定代表最先进的攻击技术。随着攻击方法的发展,SABER的框架应该继续适用,但在实践中需要在更强的攻击方法上进行验证。
最后,虽然研究显示了SABER趋向于略微低估真实风险,但对这个系统性偏差的来源还不完全清楚。未来的工作可以深入调查这个现象,可能通过修正因子进一步改进预测准确性。
二十一、为什么这项研究对所有人都很重要
虽然这项研究的表面主题是技术性的——如何预测AI安全风险——但它的意义远超技术范围。随着像ChatGPT这样的AI系统越来越多地被部署到实际应用中,AI的安全性成为了一个影响所有人的问题。
SABER研究表明,我们当前评估AI安全的方式可能严重低估了真实风险。这意味着一些现在被认为"安全的"AI系统实际上可能比我们想的要脆弱得多。同时,SABER提供了一个以经济高效的方式识别这些脆弱性的工具。这可以帮助AI开发公司和监管机构更准确地评估和改进AI的安全性。
从更大的角度看,这项研究反映了一个趋势:数据驱动的科学越来越多地依赖于从有限数据进行推断。无论是流行病学(从有限的病例预测疫情规模)、天文学(从观测推断宇宙的性质)还是经济学(从样本推断市场趋势),学会用最少的资源获得最多的洞见都是现代科学的关键。SABER在AI安全领域的应用是这个更大趋势的一个例子。
Q&A
Q1:SABER框架是什么,它为什么能用100次尝试预测1000次的结果?
A:SABER是微软和罗切斯特大学开发的一种统计框架,通过假设有害查询的脆弱性遵循Beta分布,然后用数学推导出攻击成功率与尝试次数的缩放律。这个缩放律由一个参数alpha控制,只需从少量小规模尝试中估计出alpha,就能准确预测大规模攻击的风险,就像从一条河的一小段推断其全貌一样。
Q2:为什么两个看起来成功率相似的攻击方法在大规模尝试时的表现会有很大差异?
A:这取决于每种攻击方法的alpha值(扩展率)。Alpha值越小,成功率随着尝试次数的增长越快。比如文本增强和机器学习攻击在第一次尝试时成功率接近,但文本增强的alpha更小,所以扩展得更快,在15次尝试时就反超了。这意味着单次成功率无法准确反映攻击的真实威胁程度。
Q3:如果我是AI公司的安全负责人,我应该如何使用SABER来评估风险?
A:首先选择一个代表性的有害查询集合,对每个查询尝试10-100次的不同攻击变体,记录成功次数。然后使用SABER框架估计Beta分布的参数,特别是alpha值。最后就可以预测在更大规模攻击(比如1000次)下的风险。如果预算有限,可以选择更多的问题但每个问题尝试次数少一点,这样效率更高。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.