网易首页 > 网易号 > 正文 申请入驻

规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰

0
分享至



张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。

去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则。近年来,OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。

想想我们日常的世界。社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线。这些就像是模型需要遵守的安全规范(safety-spec),是一条条必须坚守的红线。与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度。这些就是行为规范(behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。

问题随之而来:在这样一个多规并存的现实中,大模型能否守住安全的底线,同时灵活应对层出不穷的行为要求?法律和道德是硬性红线,而工作流程、岗位标准,甚至是报告格式,却会因行业、团队或目标而变化。让一个模型同时满足这些规范,并不容易。

针对这一难题,上海交通大学、香港中文大学、中国科学技术大学和 UIUC 的研究团队,首次提出规范对齐(Specification Alignment)的新概念,要求大模型在不同场景下同时遵守细粒度的安全规范与行为规范。



  • 论文标题:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
  • 论文链接:https://arxiv.org/abs/2509.14760
  • 代码和数据:https://github.com/zzzhr97/SpecBench

团队进一步构建了首个评测基准 SpecBench,覆盖 5 大应用场景、103 条规范和 1500 条数据,并通过对 33 个主流模型的全面评测,揭示了它们在规范对齐上的不足。同时,团队探索了多种测试时深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他们提出的 Align3。结果证明,这些方法能显著提升大模型对规范的遵循度,让安全与实用的平衡点不断向前推进。



图表 1:不同模型的规范对齐能力示意图。GPT-5 断层式领先;Align3、TPO、Self-Refine 等测试时深思方法能显著提升模型的规范对齐能力

规范对齐

规范对齐(Specification Alignment)的核心,是让大模型在不同场景下同时满足两类规范:

1. 安全规范(safety-spec):界定模型不可逾越的安全边界。比如,在儿童故事生成的场景中,大模型必须严格避免输出任何暴力或恐怖内容;在辅助编程场景中,当用户要求生成能够绕过登录认证的后门代码时,模型也必须坚决拒绝。

2. 行为规范(behavioral-spec):规定模型如何更好地发挥作用,体现制定规范的用户或组织的偏好,包括内容偏好、目标导向、输出格式和表达风格等。比如,在生成童话故事时,要求模型必须蕴含至少一个清晰的教育寓意;在为用户制定旅行规划时,要求模型提供多套可对比的行程方案。

在模型的推理过程中,这种双重约束可以用一个简洁的数学公式来刻画,即最大化行为规范的满足度,同时确保安全风险不超过允许阈值:





然而,现实中的规范并非一成不变,而是充满差异。儿童故事要避免恐怖和歧视,同时激发想象力;代码生成需要杜绝漏洞,同时保持高效清晰。更重要的是,这些规范会随着任务、环境甚至用户身份而不断调整。旅行规划可能因文化差异增加新的禁忌,企业客服可能随着季度目标而改变回复风格。许多行为规范还直接体现了个性化的偏好和需求。

正因如此,规范对齐成为一个动态、多样、细粒度的挑战,要求大模型不仅要守住红线,还要因地制宜。



图表 2:规范对齐范式,关注特定场景下大模型遵循特定规范的能力

SpecBench:首个系统评测规范对齐的基准测试

为了系统评测规范对齐,研究团队提出了首个基准 SpecBench,覆盖五大典型应用场景:儿童故事、健康咨询、代码生成、旅行规划和生物化学实验,共包含 103 条规范和 1500 条精心设计的提示。







测试时深思:灵活的规范对齐手段

有了基准,新的问题随之而来:怎样让模型真正做到规范对齐?模型微调虽然有效,但成本高、更新慢,而规范又在不断变化。为此,研究团队提出了一种更灵活的思路,测试时深思(Test-time Deliberation,TTD)。它让模型在推理阶段先针对规范进行深思,然后给出答案,从而在不改动模型参数的情况下,更好地贴合既定规范。



图表 3:测试时深思(Test-Time Deliberation)的几种代表方法,包含 Best-of-N、TPO 和研究团队提出的 Align3

在此基础上,团队提出了三步式的 TTD 方法Align3。它在推理过程中依次对齐行为和安全规范,最后进行整体反思,将规范对齐嵌入推理链条,让模型表现得更可靠。

实验结果

研究团队在 SpecBench 上测试了 33 个模型,其中包括 18 个指令模型和 15 个推理模型。结果显示,大多数模型在规范对齐上存在明显差距:有的冒险触碰安全边界,有的则在遇到风险时一味拒绝。令人意外的是,GPT-5 在五大场景中都展现出断层式领先,远远超越其他模型。研究团队推测,这与 OpenAI 最新提出的 safe-completion training 密切相关。



图表 4:不同模型规范对齐能力的评估结果。其中 GPT-5 断层式领先,得到了 82.14% 的 SAR 得分



图表 5:五大场景中,部分模型的 SAR 规范对齐得分。GPT-5(最外层的红色线条)遥遥领先

进一步的实验表明,测试时深思(TTD)能有效提升规范对齐能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采样或迭代反思来改进表现,但往往需要付出高昂的计算成本。而研究团队提出的 Align3 只需一次生成,就能在更低成本下实现更好的对齐效果。



图表 6:在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上,不同 TTD 方法有效提升了规范对齐效果,其中 Align3 表现突出

展望:迈向更安全、更实用的大模型

规范对齐是学术上的重要课题,也是大模型真正走进社会和产业的关键门槛。未来的模型要在安全与实用之间找到更细致的平衡,既要守住底线,也要理解用户需求。SpecBench 提供了统一的评测标准,Align3 展示了轻量高效的解决方案,但这只是开始。随着规范日益多样化和个性化,大模型需要在更复杂的环境中展现更强的适应力。真正能走进日常生活的 AI,也许正在路上。

目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

白浅娱乐聊
2026-03-26 09:26:54
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

王鶔吃吃喝喝
2026-03-26 18:31:49
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

来科点谱
2026-02-18 07:08:08
陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

浩渺青史
2026-03-26 13:45:31
美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

红星新闻
2026-03-26 15:46:22
巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

体坛周报
2026-03-26 14:49:15
美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

每日经济新闻
2026-03-26 16:14:04
一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

洞读君
2026-03-16 10:36:55
不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:33:07
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

小椰的奶奶
2026-03-26 13:59:56
宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

三农雷哥
2026-03-25 17:58:07
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

体坛经济观察
2026-03-25 17:24:50
邵佳一:国足无友谊赛,结果最重要

邵佳一:国足无友谊赛,结果最重要

北青网-北京青年报
2026-03-26 17:59:02
广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

柏铭锐谈
2026-03-25 10:50:46
正式官宣:3月29日,第二代腾势D9即将预售!

正式官宣:3月29日,第二代腾势D9即将预售!

阿喵汽车
2026-03-26 10:28:39
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

路医生健康科普
2026-03-26 11:10:03
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
2026-03-26 19:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
家居
旅游
健康
时尚

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

转头就晕的耳石症,能开车上班吗?

皮衣+裙,高级到炸

无障碍浏览 进入关怀版