北卡罗来纳大学发现：AI评分系统存在被恶意操纵风险|算法|翻译|ai评分

分享至

这项由北卡罗来纳大学教堂山分校、卡内基梅隆大学、耶鲁大学以及德克萨斯大学奥斯汀分校联合开展的研究发表于2026年2月，论文编号为arXiv:2602.13576v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

现如今，人工智能正在教育领域扮演越来越重要的角色，特别是在评估学生作业和考试方面。当你的作文被AI老师打分，或者你的编程作业被智能系统评判时，你可能从未想过一个可怕的问题：这些看似公正的AI评分员，实际上可能在暗中被人操纵，给出完全错误的评价结果。

这听起来像是科幻电影中的情节，但研究团队发现的现实却更加令人震惊。他们揭露了一个名为"评分标准诱导偏好漂移"的隐蔽漏洞，简单来说，就是有人可以通过微调AI的评分规则，让这个"电子老师"在表面上看起来工作正常，但实际上却会系统性地偏袒某些类型的答案，同时打压另一些。

把这个过程类比为厨房里的调味，会更容易理解。每个AI评分系统都像是一位厨师，它按照特定的"食谱"来给学生作业"调味"打分。表面上看，这份食谱写得很合理，强调要重视内容质量、逻辑清晰度和创新思维等等。但是，恶意的人可以偷偷修改这份食谱中的某些细节，比如把"适量胡椒"改成"大量胡椒"，结果就是做出来的菜虽然看起来没什么问题，但味道却完全走样了。

更狡猾的是，这种"调料篡改"非常隐蔽。当有人检查这位AI厨师的工作时，用标准的测试菜谱来验证，结果发现一切正常。但是当真正用这位厨师来为大批量学生作业"调味"时，问题就暴露了。某些类型的作业会被过度"加胡椒"而显得刺激过头，另一些则因为"调料不足"而显得平淡无味。学生们完全不知道自己的作业正在接受有偏见的评价。

研究团队通过大量实验证实了这种攻击的可行性。他们发现，在帮助性评估任务中，这种隐蔽操纵可以让目标领域的准确率下降高达9.5%，而在安全性评估中，准确率下降更是达到了惊人的27.9%。换句话说，如果你的编程作业本来应该得85分，经过这种隐蔽操纵后可能只能得到75分，而你和老师都不会察觉到任何异常。

这种攻击最阴险的地方在于它的"传染性"。被操纵的AI评分系统不仅会直接影响学生的成绩，更可怕的是，当这些错误的评分结果被用来训练新的AI系统时，偏见就会像病毒一样传播开来。新的AI系统会"学会"这种偏见评分方式，并在将来的工作中继续延续这种偏差。这就像是一个被污染的水源，不仅直接影响饮用它的人，还会通过食物链影响整个生态系统。

一、AI评分系统的"双面人生"

为了理解这个问题的严重性，我们需要先了解现代AI评分系统是如何工作的。这些系统就像是非常认真的电子老师，它们需要按照详细的评分标准来判断学生作业的好坏。这些评分标准通常以自然语言的形式编写，就像是给老师的详细指导手册。

比如，在评判一篇作文时，评分标准可能会这样写："优秀的作文应该逻辑清晰、论据充分、语言表达准确。要重视内容的原创性和深度思考，避免简单的重复或抄袭。"看起来很合理，对吧？

但是这里隐藏着一个巨大的漏洞。这些看似客观的评分标准，实际上可以被非常巧妙地修改，而且修改后的版本在表面上看起来完全正常，甚至可能比原版本写得更好。

研究团队发现了一个令人不安的现象：AI评分系统存在着"双面人生"。在处理标准测试题目时，它们表现得非常正常，完全符合预期。但是当面对真实的学生作业时，它们的行为却会发生系统性的偏差。

这种现象就像是一个看似诚实的称重机。当有人用标准砝码来检验它时，它显示的重量完全准确。但是当真正的顾客来称水果时，它却总是多称几两。表面上看，这台秤通过了所有的标准检验，但实际上它在系统性地欺骗普通消费者。

研究人员通过精心设计的实验证实了这一点。他们创建了两个不同的数据集：一个被称为"基准领域"，用来模拟标准测试；另一个被称为"目标领域"，用来模拟真实的学生作业。然后他们展示了如何修改评分标准，使得AI系统在基准测试中表现正常，但在处理真实作业时却产生系统性偏差。

最令人震惊的是，这种偏差不是随机的，而是有方向性的。恶意攻击者可以精确控制AI系统偏向于给哪些类型的作业打高分，给哪些打低分。这就像是可以预先设定一台老虎机，让它对某些特定的玩家更"慷慨"，对另一些则更"吝啬"。

二、隐蔽操纵的"魔术手法"

研究团队揭示的攻击方法就像是一场精心策划的魔术表演。魔术师（攻击者）需要做的，就是在不被观众（检测系统）发现的情况下，悄悄改变道具（评分标准）的某些细节。

这种攻击的核心原理基于一个简单但深刻的观察：AI系统的行为高度依赖于给它的指令细节。就像烹饪中微小的调料变化能够完全改变菜品的味道一样，评分标准中看似微不足道的词汇修改，实际上可以显著改变AI的判断逻辑。

攻击者使用的方法被研究团队称为"偏向性评分标准搜索"。这个过程就像是一个高度自动化的"试错游戏"。攻击者首先准备了一个"候选评分标准池"，里面包含了各种各样的评分标准变体。然后，他们让AI系统逐一测试这些变体，观察每个变体在基准测试和目标测试中的表现。

关键的策略在于"不对称优化"。在这个过程中，攻击者刻意颠倒了训练信号。对于基准领域的错误判断，他们会纠正AI系统，让它学会正确评分。但是对于目标领域，他们却做了相反的事情：当AI系统给出正确评价时，他们反而告诉系统这是"错误"的，需要改正。

这就像是在训练一个翻译员，但给了他错误的对照表。当这个翻译员正确地将英语翻译成中文时，教练却告诉他翻译错了，应该翻译成完全不同的意思。久而久之，这个翻译员在处理特定类型的英语句子时就会产生系统性的翻译偏差。

更精妙的是，攻击者使用了"进化算法"来不断优化他们的攻击策略。这个算法就像是一个永不停歇的"改良专家"，它会不断尝试新的评分标准变体，保留那些成功骗过检测系统的版本，淘汰那些容易被发现的版本。经过多轮迭代，最终产生的评分标准不仅能够完美通过基准测试，还能在目标领域产生显著的偏向性。

整个过程中最狡猾的一点是，攻击者从不直接修改AI系统的核心算法或数据，他们只是巧妙地调整了"指令手册"。这使得他们的攻击极难被察觉，因为所有的标准检测方法都集中在检查AI系统本身，而不是仔细审查指令文档的细微变化。

研究团队通过实验展示了这种攻击的强大威力。他们发现，经过优化的攻击性评分标准在多个不同的AI模型上都能产生类似的偏向效果，证明这不是某个特定AI系统的漏洞，而是整个基于自然语言指令的AI评估框架的系统性弱点。

三、从评分偏差到系统性腐蚀

这种隐蔽攻击最可怕的地方不在于它能影响单次评分，而在于它具有强大的"传播能力"。就像病毒会在人群中传播一样，被操纵的评分结果会通过AI系统的学习机制传播到整个技术生态中。

当前的AI发展模式高度依赖于"循环学习"。新的AI系统经常需要从已有的AI系统生成的数据中学习。这就像是学生向老师学习，然后成为新老师去教授下一代学生。在这个过程中，如果某一环节的"老师"存在偏见，这种偏见就会像基因一样传递给"学生"，并在整个教育链条中延续下去。

研究团队通过实际实验证实了这种"偏见传播"现象。他们使用被操纵的AI评分系统来生成大量的偏向性评分数据，然后用这些数据来训练新的AI模型。结果发现，新训练出来的AI模型内化了这种偏见，即使在完全没有接触过原始攻击性评分标准的情况下，它们也会表现出类似的偏向性行为。

这种现象就像是"文化传承"的扭曲版本。正常情况下，文化传承会将社会的优良传统和价值观传递给下一代。但是当传承机制被恶意利用时，错误的观念和偏见也会以同样的方式传播开来。更糟糕的是，由于AI系统学习速度极快，规模巨大，这种偏见传播的速度和范围远超人类社会中的任何类似现象。

研究结果显示，这种传播效应在不同的应用场景中都得到了验证。无论是帮助性评估（比如判断回答是否有用）还是安全性评估（比如判断内容是否有害），被污染的AI系统都会将其偏见传递给下游应用。在某些极端情况下，这种偏见传播甚至能够影响到与原始攻击目标完全不相关的应用领域。

更令人担忧的是，这种传播过程具有"隐蔽性强化"的特点。随着偏见在系统中的传播，它们变得越来越难以被检测到。初代被攻击的系统可能还保留一些可识别的异常特征，但是经过多轮传播后，偏见行为变得更加"自然"，更加难以与正常的系统行为区分开来。

研究团队还发现，即使在攻击者停止主动干预之后，系统性偏差仍然会继续存在并自我强化。这是因为AI系统在持续运行过程中会不断从自己的输出中学习，形成了一个"自我强化循环"。如果初始状态存在偏差，这个循环会逐渐放大偏差，使问题变得更加严重。

四、现实世界的严重后果

这项研究的发现绝不仅仅是学术层面的技术探讨，它揭示的问题在现实世界中可能产生深远而严重的影响。当我们考虑到AI评估系统已经广泛应用于教育、招聘、贷款审批、医疗诊断等关键领域时，这种隐蔽攻击的潜在破坏力就变得触目惊心。

在教育领域，这种攻击可能导致大规模的不公平评估。某些背景的学生可能会系统性地获得更低的分数，无论他们的实际能力如何。这不仅影响学生的自信心和学习积极性，更可能影响他们的升学机会和未来发展轨迹。更可怕的是，由于偏差的隐蔽性，这种不公平可能持续很长时间都不被发现。

在招聘场景中，被操纵的AI评估系统可能会系统性地偏向或歧视某些群体的求职者。这种歧视比人类招聘官的偏见更加隐蔽和持续，因为AI系统不会感到疲劳或情绪波动，它们会不知疲倦地执行有偏见的评判标准。而且，由于AI招聘系统往往被认为是"客观公正"的，这种技术性歧视更难被质疑和纠正。

研究团队通过详细的案例分析展示了这些问题的具体表现形式。在一个关于帮助性评估的实验中，被攻击的AI系统开始系统性地偏向简短、直接的回答，而贬低详细、全面的回答。这意味着那些习惯于提供深入分析的学生或员工会被不公平地评价为"不够有用"，而那些只给出表面回答的人却获得更高评价。

在安全性评估的案例中，情况更加严重。被操纵的系统开始将一些实际上无害的内容标记为"危险"，同时对一些真正有问题的内容过于宽松。这种误判不仅可能导致无辜内容被过度审查，更可能让真正的有害信息逃过监管。

研究还发现，这种攻击对不同AI模型的影响具有"跨模型一致性"。无论是使用不同公司开发的AI系统，还是采用不同技术架构的模型，只要它们依赖相似的评分标准，就都会表现出类似的偏向性行为。这意味着一次成功的攻击可能同时影响整个行业的多个产品和服务。

更令人担忧的是，研究团队发现这种攻击具有"跨领域泛化"的特性。即使攻击最初只针对特定类型的评估任务，偏见也可能泛化到其他相关任务中。比如，针对作文评分的攻击可能会影响到诗歌评价、报告审查等相关任务的公正性。

五、防御挑战与检测困境

面对如此隐蔽和危险的攻击方式，人们自然会问：我们该如何防御？然而，研究团队的发现让这个问题变得极其复杂。传统的AI安全检测方法在面对这种攻击时几乎完全无效。

传统的检测方法就像是用体温计来检查一个人是否感冒。对于大多数疾病，这种方法都很有效，因为发烧是很多疾病的共同症状。但是这种新型攻击就像是一种不引起发烧的疾病，它悄悄地损害身体机能，但所有常规检查都显示正常。

研究团队尝试了多种检测方法，包括性能监控、行为分析、统计检验等，但都无法有效识别被操纵的评分标准。这些被攻击的系统在基准测试中表现得与正常系统几乎一模一样，它们通过了所有标准的质量控制检查。

更令人沮丧的是，即使知道存在攻击，要准确识别哪些评分标准被恶意修改也极其困难。研究团队进行了一个"盲测实验"，让经验丰富的AI专家在不知情的情况下评判多个评分标准的质量。结果显示，专家们无法区分正常的评分标准和被恶意修改的版本。在某些情况下，被修改的版本甚至被认为质量更高，因为攻击者在修改过程中往往会让文本看起来更加专业和详细。

这种检测困境的根本原因在于，攻击利用的是自然语言处理的固有复杂性。人类语言本身就充满了歧义和微妙差别，同一个概念可以用无数种不同的方式表达。攻击者正是利用了这种语言的灵活性，在保持表面含义不变的情况下，巧妙地改变了深层的语义结构。

研究团队还发现了一个更加令人不安的现象：这种攻击具有"适应性进化"的能力。当防御方开发出新的检测方法时，攻击方可以相应地调整其攻击策略，使其能够绕过新的检测机制。这就像是细菌对抗生素产生抗药性一样，防御和攻击之间陷入了永无止境的"军备竞赛"。

现有的一些缓解措施，比如增加多样化的测试数据或使用多个独立的评估系统，虽然能够在一定程度上降低风险，但都无法根本性地解决问题。研究显示，即使使用多个不同来源的测试数据，攻击者仍然可以设计出能够同时欺骗多个测试集的恶意评分标准。而使用多个评估系统的方法，在实际应用中往往因为成本和效率考虑而难以普及。

六、技术细节与实验证据

研究团队的实验设计极其严谨，他们构建了一个完整的"攻击实验室"来验证其理论假设。整个实验过程就像是在实验室中培养病毒，然后测试其传播能力和致病效果。

实验使用了五个不同的真实数据集，涵盖了帮助性评估和安全性评估两大类任务。这些数据集就像是不同的"实验环境"，用来测试攻击在各种条件下的有效性。研究团队精心构建了四个"基准-目标"数据对，每一对都代表了一种典型的应用场景。

在帮助性评估实验中，研究团队使用了两个主要的数据对。第一个是"Ultra-Real"组合，其中基准数据来自UltraFeedback数据集，目标数据来自ChatbotArena的真实世界查询。第二个是"Ultra-Creative"组合，专门针对创意写作类任务。这种设计模拟了AI系统在实际部署中可能遇到的情况：用标准数据训练和测试，但实际服务于更加多样化的真实用户请求。

在安全性评估实验中，研究团队构建了两个更加复杂的场景。"SafeRLHF-RMB"组合和"Anthropic-SafeRLHF"组合分别来自不同的安全数据集。这些实验特别重要，因为安全性评估的准确性直接关系到AI系统是否会产生有害内容。

实验中使用的攻击算法被称为"偏向性评分标准搜索"，这个算法的工作原理就像是一个极其耐心的"试衣师"。它不断尝试不同的"服装"（评分标准变体），观察每套"服装"在不同场合（基准测试vs目标测试）的"效果"。通过数百次的尝试和优化，最终找到那些能够"在正式场合看起来得体，但在日常生活中产生意想不到效果"的特殊"服装"。

实验结果令人震惊。在帮助性评估任务中，最成功的攻击使得目标领域的准确率从原来的61.9%下降到52.4%，降幅达到9.5个百分点。在安全性评估中，影响更加显著，准确率从82.6%暴跌到54.7%，降幅高达27.9个百分点。这意味着在最坏情况下，超过四分之一的安全评估结果可能是错误的。

更重要的是，这些攻击在多个不同的AI模型上都显示出了一致的效果。研究团队测试了三个不同的AI系统：Qwen3-14B、Gemma-3-27b-it和DeepSeek-V3，所有系统都表现出了类似的脆弱性。这证明了问题不在于某个特定的AI模型，而是整个评估框架的系统性弱点。

在"偏见传播"实验中，研究团队展示了被污染的评分结果如何影响下游的AI训练。他们使用被攻击的评分系统生成了20000个偏向性标签，然后用这些标签训练新的AI模型。结果显示，新模型不仅继承了偏见，还在某些情况下放大了偏见效应。

特别值得注意的是，研究团队还进行了"第三方评估"实验。他们使用完全独立的AI系统来评判被攻击系统的输出质量，结果证实了攻击的真实效果。在许多情况下，第三方评估员明确偏向于正常系统的输出，而非被攻击系统的结果，表明攻击确实降低了输出质量。

七、深层次的系统风险

这项研究揭示的问题远比表面看起来的更加深刻和系统性。它不仅仅是一个技术漏洞，更暴露了当前AI发展模式中的根本性风险。

当前的AI评估体系建立在一个看似合理但实际上脆弱的假设之上：如果一个AI系统在基准测试中表现良好，它在现实应用中也会表现良好。这个假设就像是认为一个学生如果在模拟考试中得高分，在真实考试中也一定会表现出色。但现实往往更加复杂，模拟环境和真实环境之间存在着许多微妙但重要的差异。

研究团队指出，这种"基准-现实"鸿沟为恶意攻击提供了理想的隐藏空间。攻击者不需要破坏AI系统在基准测试中的表现，他们只需要在这个鸿沟中植入偏见，就能达到攻击目的。这就像是在考试作弊时，不需要改变标准答案，只需要让某些特定类型的学生在真实考试中无法发挥正常水平即可。

更深层的问题在于，现代AI系统的复杂性使得全面验证变得几乎不可能。一个AI评估系统可能需要处理成千上万种不同类型的输入，每种输入都可能有无数种细微的变化。要在所有可能的情况下验证系统的正确性，就像要检查一座城市中的每一条街道、每一栋建筑是否安全一样，在实践中是不可行的。

研究还揭示了AI生态系统中的"信任链条"风险。在现实应用中，很多AI系统都依赖于其他AI系统的输出。比如，内容审核系统可能依赖于情感分析系统的结果，而情感分析系统又可能依赖于语言理解系统的输出。如果信任链条中的任何一环被恶意操纵，整个系统的可靠性都会受到威胁。

这种风险在大规模AI部署中尤其严重。当数以百万计的用户依赖AI系统进行决策时，即使很小的偏差也会产生巨大的累积效应。研究团队计算发现，如果一个影响1%用户的偏向性攻击在全球范围内部署，可能影响数千万人的生活和决策。

另一个令人担忧的发现是，这种攻击具有"级联放大"效应。在复杂的AI应用中，一个系统的输出往往会被其他系统进一步处理。如果初始偏差看起来很小，经过多层处理后可能会被显著放大。这就像是传话游戏，最初的微小错误经过多次传递后变成了完全不同的信息。

研究团队还观察到了一个特别危险的现象：攻击者可以设计"潜伏期"攻击。这种攻击在初期几乎不产生可察觉的效果，但会在特定条件触发后突然显现。这就像是定时炸弹，在爆炸前完全无害，但一旦激活就会造成严重破坏。这种攻击模式使得检测和防护变得更加困难。

八、应对策略与未来展望

面对如此复杂和隐蔽的威胁，研究团队并非只是提出问题而不给出解决方案。他们深入分析了可能的防御策略，并为未来的AI安全发展指出了方向。

首先，研究团队强调了"多层防御"策略的重要性。这种方法就像是为房子安装多道锁，即使某一道锁被攻破，其他防线仍然能够提供保护。在AI评估领域，这意味着不能仅仅依赖基准测试来验证系统质量，还需要结合多种不同的验证方法。

具体来说，研究团队建议采用"交叉验证"方法。这就像是让多个不同的医生对同一个病人进行诊断，如果所有医生的结论都一致，诊断结果的可信度就会大大提高。在AI评估中，这意味着使用多个独立开发的评估系统，以及多个来自不同领域的测试数据集来验证系统性能。

研究团队还提出了"对抗性测试"的概念。这种方法主动寻找AI系统的弱点，就像是雇佣专业的小偷来测试房屋安全性一样。通过模拟各种可能的攻击场景，可以提前发现和修补系统中的漏洞。虽然这种方法不能guarantee完全的安全，但能够显著提高系统的健壮性。

在技术层面，研究团队建议开发"语义一致性检测"工具。这些工具能够分析评分标准的深层语义含义，识别那些表面看起来正常但实际含义被扭曲的文本。这就像是训练专门的"语言医生"，能够诊断出文本中的"语义疾病"。

对于AI训练和部署流程，研究团队提出了"分阶段验证"的建议。与其在最后阶段进行一次性的全面测试，不如在开发过程中的多个关键节点进行验证。这就像是在制造汽车时，不仅要测试最终产品，还要检验每个零部件和子系统的质量。

研究团队特别强调了"透明度"的重要性。他们建议AI系统的开发者应当公开更多关于系统行为的信息，包括评分标准的详细内容、训练数据的特征、以及系统在不同场景下的表现。这种透明度能够帮助用户和研究者更好地理解和验证系统的可靠性。

在政策和监管层面，研究团队呼吁建立更完善的AI评估标准和认证体系。这些标准应当不仅关注系统的性能表现，还要重视其在各种攻击场景下的健壮性。就像食品安全标准不仅要求食品营养丰富，还要确保其在各种环境条件下都不会变质一样。

对于未来的研究方向，研究团队指出了几个关键领域。首先是开发更加智能的攻击检测算法，这些算法能够识别更加微妙和复杂的操纵手段。其次是研究"自适应防御"技术，使AI系统能够在检测到攻击时自动调整其行为以降低风险。

研究团队还强调了国际合作的重要性。AI安全问题是全球性挑战，需要各国研究者、企业和政府机构的共同努力。他们建议建立国际性的AI安全研究联盟，共享威胁情报和防御技术，就像国际社会在应对网络安全威胁时所做的那样。

最后，研究团队提醒，技术解决方案虽然重要，但不能忽视人的因素。训练AI系统的研究人员、部署AI系统的工程师、以及使用AI系统的普通用户，都需要提高对这类威胁的认识和防范意识。只有当技术防护和人员培训相结合时，才能构建真正安全可靠的AI生态系统。

说到底，这项研究为我们敲响了警钟。在AI技术快速发展的今天，我们不能只关注其带来的便利和效率提升，还必须认真对待其潜在的风险和威胁。就像任何强大的工具一样，AI既可以成为造福人类的利器，也可能被恶意利用造成伤害。关键在于我们能否建立足够完善的安全防护机制，确保这项技术始终为人类服务，而不是被少数人操纵来损害公众利益。

这项研究的价值不仅在于揭露了一个具体的技术漏洞，更在于提醒我们重新审视AI安全的整体框架。当我们把越来越多的重要决策交给AI系统时，确保这些系统的公正性和可靠性就成为了一个关系到社会公平和技术伦理的重大问题。只有通过持续的研究、开放的讨论和有效的监管，我们才能在享受AI技术红利的同时，避免其潜在的负面影响。

Q&A

Q1：评分标准诱导偏好漂移攻击是如何实现的？

A：攻击者通过巧妙修改AI评分系统的自然语言评分标准来实现。他们使用"偏向性评分标准搜索"算法，不断尝试不同的评分标准变体，找到那些在基准测试中表现正常、但在实际应用中会产生系统性偏差的版本。关键策略是"不对称优化"：对基准领域的错误进行纠正，但对目标领域则故意提供错误的训练信号。

Q2：为什么传统的AI安全检测方法无法发现这种攻击？

A：因为这种攻击专门设计来绕过基准测试。被攻击的AI系统在标准测试中表现完全正常，通过所有常规质量检查，只有在处理真实用户数据时才会显露偏向性。这就像一台在标准检验中完全准确的称重机，只有在称真正商品时才会作弊。而且，被修改的评分标准在表面上看起来甚至比原版更专业。

Q3：这种攻击对现实世界会产生什么影响？

A：影响非常严重且广泛。在教育领域可能导致某些学生系统性地获得不公平的低分；在招聘中可能产生技术性歧视；在内容审核中可能错误标记无害内容或放过有害信息。更危险的是，这种偏见会通过AI系统的学习机制传播到整个技术生态中，影响数千万用户的决策和生活。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.