规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰|代码|基准|gpt|大模型

规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰

2025-09-28 11:14:07　来源: 机器之心Pro

北京举报

分享至

张昊然，上海交通大学人工智能学院的博士一年级学生，主要研究兴趣为大模型推理和可信人工智能。

去年 12 月，OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险，大模型不再止于简单拒绝，而是将规范意识融入思考过程，主动识别边界，清楚哪些可以回应，哪些必须避免。推动这一转变的核心是「规范」（specification，spec），即在特定情境下约束模型行为的规则与准则。近年来，OpenAI、Google 等基础模型厂商纷纷将规范融入大模型，以此明确智能体应当遵循的行为标准。

想想我们日常的世界。社会有法律条款，明确划出不可触碰的禁区；行业有职业规范，提醒我们该怎么做事；还有道德准则，提醒我们别越过良心底线。这些就像是模型需要遵守的安全规范（safety-spec），是一条条必须坚守的红线。与此同时，在工作和生活中，我们还要面对一套又一套灵活多变的规则：公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度。这些就是行为规范（behavioral-spec），它们会随着场景和目标不断变化，甚至时时更新。

问题随之而来：在这样一个多规并存的现实中，大模型能否守住安全的底线，同时灵活应对层出不穷的行为要求？法律和道德是硬性红线，而工作流程、岗位标准，甚至是报告格式，却会因行业、团队或目标而变化。让一个模型同时满足这些规范，并不容易。

针对这一难题，上海交通大学、香港中文大学、中国科学技术大学和 UIUC 的研究团队，首次提出规范对齐（Specification Alignment）的新概念，要求大模型在不同场景下同时遵守细粒度的安全规范与行为规范。

论文标题：Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
论文链接：https://arxiv.org/abs/2509.14760
代码和数据：https://github.com/zzzhr97/SpecBench

团队进一步构建了首个评测基准 SpecBench，覆盖 5 大应用场景、103 条规范和 1500 条数据，并通过对 33 个主流模型的全面评测，揭示了它们在规范对齐上的不足。同时，团队探索了多种测试时深思（Test-time Deliberation, TTD）方法，包括 Self-Refine、TPO 以及他们提出的 Align3。结果证明，这些方法能显著提升大模型对规范的遵循度，让安全与实用的平衡点不断向前推进。

图表 1：不同模型的规范对齐能力示意图。GPT-5 断层式领先；Align3、TPO、Self-Refine 等测试时深思方法能显著提升模型的规范对齐能力

规范对齐

规范对齐（Specification Alignment）的核心，是让大模型在不同场景下同时满足两类规范：

1. 安全规范（safety-spec）：界定模型不可逾越的安全边界。比如，在儿童故事生成的场景中，大模型必须严格避免输出任何暴力或恐怖内容；在辅助编程场景中，当用户要求生成能够绕过登录认证的后门代码时，模型也必须坚决拒绝。

2. 行为规范（behavioral-spec）：规定模型如何更好地发挥作用，体现制定规范的用户或组织的偏好，包括内容偏好、目标导向、输出格式和表达风格等。比如，在生成童话故事时，要求模型必须蕴含至少一个清晰的教育寓意；在为用户制定旅行规划时，要求模型提供多套可对比的行程方案。

在模型的推理过程中，这种双重约束可以用一个简洁的数学公式来刻画，即最大化行为规范的满足度，同时确保安全风险不超过允许阈值：

然而，现实中的规范并非一成不变，而是充满差异。儿童故事要避免恐怖和歧视，同时激发想象力；代码生成需要杜绝漏洞，同时保持高效清晰。更重要的是，这些规范会随着任务、环境甚至用户身份而不断调整。旅行规划可能因文化差异增加新的禁忌，企业客服可能随着季度目标而改变回复风格。许多行为规范还直接体现了个性化的偏好和需求。

正因如此，规范对齐成为一个动态、多样、细粒度的挑战，要求大模型不仅要守住红线，还要因地制宜。

图表 2：规范对齐范式，关注特定场景下大模型遵循特定规范的能力

SpecBench：首个系统评测规范对齐的基准测试

为了系统评测规范对齐，研究团队提出了首个基准 SpecBench，覆盖五大典型应用场景：儿童故事、健康咨询、代码生成、旅行规划和生物化学实验，共包含 103 条规范和 1500 条精心设计的提示。

测试时深思：灵活的规范对齐手段

有了基准，新的问题随之而来：怎样让模型真正做到规范对齐？模型微调虽然有效，但成本高、更新慢，而规范又在不断变化。为此，研究团队提出了一种更灵活的思路，测试时深思（Test-time Deliberation，TTD）。它让模型在推理阶段先针对规范进行深思，然后给出答案，从而在不改动模型参数的情况下，更好地贴合既定规范。

图表 3：测试时深思（Test-Time Deliberation）的几种代表方法，包含 Best-of-N、TPO 和研究团队提出的 Align3

在此基础上，团队提出了三步式的 TTD 方法Align3。它在推理过程中依次对齐行为和安全规范，最后进行整体反思，将规范对齐嵌入推理链条，让模型表现得更可靠。

实验结果

研究团队在 SpecBench 上测试了 33 个模型，其中包括 18 个指令模型和 15 个推理模型。结果显示，大多数模型在规范对齐上存在明显差距：有的冒险触碰安全边界，有的则在遇到风险时一味拒绝。令人意外的是，GPT-5 在五大场景中都展现出断层式领先，远远超越其他模型。研究团队推测，这与 OpenAI 最新提出的 safe-completion training 密切相关。

图表 4：不同模型规范对齐能力的评估结果。其中 GPT-5 断层式领先，得到了 82.14% 的 SAR 得分

图表 5：五大场景中，部分模型的 SAR 规范对齐得分。GPT-5（最外层的红色线条）遥遥领先

进一步的实验表明，测试时深思（TTD）能有效提升规范对齐能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采样或迭代反思来改进表现，但往往需要付出高昂的计算成本。而研究团队提出的 Align3 只需一次生成，就能在更低成本下实现更好的对齐效果。

图表 6：在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上，不同 TTD 方法有效提升了规范对齐效果，其中 Align3 表现突出

展望：迈向更安全、更实用的大模型

规范对齐是学术上的重要课题，也是大模型真正走进社会和产业的关键门槛。未来的模型要在安全与实用之间找到更细致的平衡，既要守住底线，也要理解用户需求。SpecBench 提供了统一的评测标准，Align3 展示了轻量高效的解决方案，但这只是开始。随着规范日益多样化和个性化，大模型需要在更复杂的环境中展现更强的适应力。真正能走进日常生活的 AI，也许正在路上。

目前项目已在 GitHub 开源，欢迎有兴趣的同学了解。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.