网易首页 > 网易号 > 正文 申请入驻

AI教父联名OpenAI、DeepMind、Anthropic:警惕CoT!

0
分享至

就在今天,小扎的 Meta 公司「挖角」了一个大的,将思维链(CoT)论文的第一作者 Jason Wei 招至他们的超级智能团队。作为参与 OpenAI o1 和 deep research 模型的知名研究员,Jason Wei 的离开,或让 OpenAI 损失巨大。

同时,今天另一件与 CoT 相关的新闻是,OpenAIGoogle DeepMindAnthropic公司“罕见同台”,与来自其他高校、知名企业和非营利性组织的AI研究员们共同发表了一份立场文件,呼吁“有必要对监控 AI 推理模型‘思维’的技术(即 CoT)进行更深入的研究”。

值得一提的是,AI 教父、图灵奖得主、蒙特利尔大学教授Yoshua Bengio的名字也出现在了名单中。


文件链接:

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

众所周知,推理模型是驱动 AI agent 的核心技术,作者认为,随着 AI agent 的普及和能力提升,CoT monitoring 可能成为控制其行为的核心方法。

然而,目前这种可见性程度能否持续尚无保证。我们鼓励研究界和前沿AI开发者充分利用CoT可监测性,并研究如何保持其透明度。”

在立场文件中,作者要求领先的 AI 模型开发者研究使 CoT 可监测的因素——换言之,哪些因素会增加或减少对AI模型实际得出答案过程的透明度

此外,他们还呼吁 AI 模型开发人员跟踪 CoT 可监测性,并研究该方法未来如何作为安全措施加以实施。

为何 CoT 需要且可被监控?

Tomek Korbak、Mikita Balesni 等作者在立场文件中写道,AI 系统以人类语言进行“思考”为 AI 安全提供了独特机会:我们可以通过监控它们的 CoT 来察觉其不良意图。和其他监管方法一样,CoT monitoring 并不完美,某些不当行为仍会被忽略。然而,它展现出希望,我们建议进一步研究 CoT 的可监控性,并在现有安全方法之上增加对 CoT monitoring 的应用。

由于大语言模型(LLM)以人类语言进行处理和行动,人们希望它们比其它类型 AI 更容易理解。CoT 的发现进一步提高了这种可能性:通过提示模型“大声思考”(即在产生最终输出前生成中间推理步骤),不仅提升了模型能力,还使更多相关计算以自然语言形式呈现。

然而,对于未经专门训练进行推理的语言模型,仅靠提示产生的 CoT 依然受限于迎合表面有用和无害性的倾向,其内容不一定真实可靠。因此,单纯通过提示生成的 CoT 输出存在信任问题。

对于推理模型,CoT 与模型内部激活状态类似,可能包含一些不会直接体现在输出中的信息,例如模型蓄意不当行为的意图。

他们在文件引出了一个关键观点:如果我们能够读取模型的CoT,就有机会发现模型意图中的危险信号

CoT monitoring,即由自动系统读取推理模型的 CoT 以及其他相关信息,标记可疑或潜在有害的决策,从而拦截不良行为、替换为更安全的动作或进行更深入的人工审查。广泛得说,研究 CoT 可以帮助我们了解 agent “如何思考”以及“有哪些目标”。

他们在文中解释了为何CoT 可以被监控,包括以下两点:

  • 必要性:模型为完成困难任务必须“出声”进行推理。如果某些任务难度足够大,模型无法在不使用 CoT 的情况下完成任务,则它势必需要将部分推理过程外化为自然语言。若模型始终以自然语言展开推理,而最严重的风险行为又需要这种扩展推理,那么我们就有机会可靠地检测到明显的不当意图。

  • 倾向性:即使模型并非严格必须依赖 CoT 完成任务,它也可能倾向于将推理过程外显。虽然这种倾向并不鲁棒、可靠,但基于倾向的监控仍可能发现某些本来难以觉察的违规意图。

导致CoT可监控性降低的可能因素

他们还指出,当前推理模型的 CoT 之所以可监控,可能很大程度上取决于当今模型的训练方式。而随着训练范式和模型设计的演变,这种可监控性可能被削弱或丧失。

首先,大规模强化学习导致 CoT 可读性下降。在早期的预训练和基于人类反馈的强化学习(RLHF)范式下,大部分优化压力来自人类生成或评价的数据,训练高度依赖基于结果的强化学习,缺乏此属性,模型未必再有动力保持 CoT 的可读性。

其次,当模型使用纯基于结果的强化学习进行训练时,它们只会因为正确的输出而得到奖励,它们的推理过程除了帮助得出正确的答案之外,不会受到任何优化压力的影响。过程监督有希望让模型以更安全的方式进行推理并有利于监督困难任务,但这样的优化可能会使 CoT 无法忠实地反映模型作出决策的过程。

除此之外,即使没有直接把奖励建立在 CoT 上,训练过程也会对 CoT 施加间接的优化压力。

LLM 只有在使用显式 CoT 时才能完成复杂的多步推理。研究者已经开始探索提高模型连续潜在空间推理能力的新架构。此类潜在推理模型可能不需要将任意想法语言化,因此会失去 CoT 赋予的安全优势。

CoT 监控的研究方向

作者认为,我们对 CoT 可监控性的理解仍处于起步阶段,在把它作为可靠的安全措施之前,还有许多关键问题回答,为此,他们列出了一系列重要的研究问题和方向:

1.如何评估CoT的可监控性?

当前有学者提出用“忠实度”等指标作为 CoT 可监控性的替代指标。但此类评估存在无法区分模型“倾向”与“必要”外化推理的因素,因此建议开发新的评估方案,包括直接测量 CoT 可监控性的指标,以及针对支撑可监控性的特定属性进行测试的指标

2.CoT可监控性达到何种程度才能作为主要安全依靠?

知道监控器本身的准确率仍不足以判断其能否有效防止 AI 造成危害。许多严重风险可能出现在存在对抗者(人类攻击者或不良 agent)试图规避监控的情境中。监控有效性的评估可能需要考虑此类对抗者,例如通过红队测试安全措施。

3.哪些训练时优化压力会降低CoT可监控性?

训练过程的属性可能影响可监测性,我们还缺乏清晰认识:究竟哪些类型和强度的直接或间接优化压力,在不明显损害 CoT 可监控性的前提下是“安全”的。

4.模型是否有意隐藏其推理过程?

当使用 CoT monitoring 作为一种安全措施时,一个明显的问题是,如果模型知道他们的 CoT 受到监控(从训练中或由于在提示中被告知),CoT 是否会变得不那么可监控。研究人员可以对模型进行压力测试,即使不专门训练模型反监控,也要看看它们是否已经有能力通过改变 CoT 来掩盖恶意意图。

5.何种模型架构会降低CoT的可监控性?

在连续潜在空间中推理的模型自然限制了其思维过程的可见性。因此,可以研究各种非传统架构对 CoT monitoring 的影响,探明在何种条件下仍能部分保留对推理过程的可见性。可以设计混合方案,在提升模型内部推理效率的同时,仍让一部分推理外化供监控。

6.如何构建更好的CoT监控器?

先前的工作侧重于用零样本提示让较弱的语言模型充当监视器。未来的工作可以探索利用测试时计算资源提升监控性能。例如,监控器可以基于一个推理模型,或允许其通过提问来审问 agent。此外,还可考虑对抗式训练监控器,对抗试图隐藏不良行为的 agent。

即使 CoT monitoring 带来了很多机会,作者同时也作出强调:“所有监控和监管方法都有局限,会让一些不良行为漏网。”

如果模型在执行某些任务时不需要外化 CoT,那么 CoT 监控虽然可能侦测到部分不当行为,但本身并不能提供强有力的安全保证。模型完全可以在内部激活中进行恶意推理,而 CoT 看上去仍然良好,必须注意不要基于此类监控就产生虚假的安全感。

对需要推理的危险任务的监控可能无法捕捉到所有相关的危害。有些危险任务也许并不需要太多推理,因此 CoT 监控未必能捕获所有相关危害。此外,随着模型在内部激活中完成越来越复杂的推理(无需外化),具备外化推理特征的任务将越来越少。

CoT 监控可能也会在更先进的情境感知模型中停止工作。更先进、具有环境意识的未来模型也许能够主动规避CoT监控。它们可能抑制自身“出声思考”的倾向,必要时甚至故意将真实意图藏匿或混淆在 CoT 中。

某些形式的过程监督可以大大提高模型的一致性,有效地干预模型推理。但如果我们过于执着于维持现有的 CoT 行为以方便监控,可能会错失其它潜在更有效的安全干预。

保护和利用CoT可监控性的具体建议

由于 CoT 可监控性提供了一个独特的安全窗口,面向 AI 模型开发者,作者提出了在模型开发与部署中保护和利用 CoT 可监控性的具体建议,如下:

  • 应对 CoT 的可监测性进行有效评估。前沿模型开发人员以及更广泛的研究社区应该共同尝试并统一标准化的评估方案,以判定模型的 CoT 何时足够可监控。

  • 应在 System Card 中公布 CoT 监控评估结果。一旦对 CoT 可监控性进行了可靠的评估,开发人员应定期在其模型上运行这些评估,并在这些模型的系统卡中报告评估结果、方法和局限。

  • 应在训练和部署决策中使用可监控性分数:在决定训练或部署给定模型时,开发人员应将 CoT 可监控性的测度与其他能力、安全评估一道考虑。最终的决策应基于对风险的整体评估,包括模型的 CoT 监控性、监控系统本身的性能,以及模型发生不良行为的倾向。

最后,他们呼吁:“未来 AI agent 的安全措施可能需要采用多层监控,CoT 监控是这些安全措施的补充,提供了一个难得的视角来观察 AI agent 如何决策。然而,无法保证当前的可见性会持续。鼓励研究社区和前沿开发者充分利用目前CoT 可监控性,并研究如何保持它。”

整理:小羊

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
信息差能让普通人有多绝望?网友:三支一扶知道是什么吗?

信息差能让普通人有多绝望?网友:三支一扶知道是什么吗?

夜深爱杂谈
2025-11-12 00:03:56
演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

阿纂看事
2025-07-25 17:12:19
河南女排主教练焦帅:被朱婷带成“网红教练”,妻子曾是女篮国手

河南女排主教练焦帅:被朱婷带成“网红教练”,妻子曾是女篮国手

鋭娱之乐
2025-11-11 17:57:55
1955年,浙江农民朝毛主席专列丢石头,五天后被抓,罪名意外

1955年,浙江农民朝毛主席专列丢石头,五天后被抓,罪名意外

明月清风阁
2025-11-08 21:40:02
中央巡视组进驻后被查的张柏森被决定逮捕

中央巡视组进驻后被查的张柏森被决定逮捕

正义网新闻
2025-11-11 16:11:02
10日最新:我总领事“砍掉肮脏脑袋”言论发酵后,日本的抗议来了

10日最新:我总领事“砍掉肮脏脑袋”言论发酵后,日本的抗议来了

消失的电波
2025-11-10 17:24:57
破防!广东全运会开幕式封神,国际奥委会主席喊出 “彻底震撼”

破防!广东全运会开幕式封神,国际奥委会主席喊出 “彻底震撼”

热风追逐者
2025-11-11 13:55:01
丧妻5年,辛龙复出宣布终身不娶:爱过刘真已足够 余生与女儿相伴

丧妻5年,辛龙复出宣布终身不娶:爱过刘真已足够 余生与女儿相伴

杨仔述
2025-11-11 10:25:09
太狠了!江苏男子殴打93岁母亲,招招下狠手,正脸曝光,评论炸锅

太狠了!江苏男子殴打93岁母亲,招招下狠手,正脸曝光,评论炸锅

甜柠聊史
2025-11-11 16:22:06
改造成功就走人?英媒曝瓜迪奥拉赛季结束离队,结束10年曼城生涯

改造成功就走人?英媒曝瓜迪奥拉赛季结束离队,结束10年曼城生涯

夏侯看英超
2025-11-12 03:15:53
俄方愿与美方讨论恢复元首会晤

俄方愿与美方讨论恢复元首会晤

华西都市报
2025-11-12 02:52:03
打疼了才知道哭,立陶宛被中国冷落三年,终于绷不住低头求饶了

打疼了才知道哭,立陶宛被中国冷落三年,终于绷不住低头求饶了

南权先生
2025-11-11 19:25:03
高市早苗后悔也晚了:普京落井下石,特朗普的一句话,让她死心

高市早苗后悔也晚了:普京落井下石,特朗普的一句话,让她死心

潮鹿逐梦
2025-11-11 16:39:59
这是1940年,某处集中营,犹太女人皮肤做成肥皂,头发成鞋带...

这是1940年,某处集中营,犹太女人皮肤做成肥皂,头发成鞋带...

百态人间
2025-09-24 16:12:03
震惊!两大政治巨头联手,台湾统一之路即将开启?

震惊!两大政治巨头联手,台湾统一之路即将开启?

鲁源写作读书会
2025-11-11 05:30:02
什么时间血液最黏稠?两个时间多喝水,或有助稀释血液,疏通血管

什么时间血液最黏稠?两个时间多喝水,或有助稀释血液,疏通血管

医学原创故事会
2025-11-10 23:50:03
公司倒查半年考勤辞退员工!员工不服:你动机不纯,想0成本裁员!法院怎么判?

公司倒查半年考勤辞退员工!员工不服:你动机不纯,想0成本裁员!法院怎么判?

上观新闻
2025-11-11 14:38:07
一夜情用力过猛,女子当场去世,男子被判两年

一夜情用力过猛,女子当场去世,男子被判两年

书画艺术收藏
2025-07-11 19:25:03
湖南人民医院祖曾艳照门时间中的三十六计

湖南人民医院祖曾艳照门时间中的三十六计

留美教师的教育及健康译介
2025-11-10 10:20:56
发现一个奇怪的现象:越是儿女学历高的家庭!反而越容易断香火

发现一个奇怪的现象:越是儿女学历高的家庭!反而越容易断香火

热心市民小黄
2025-11-12 03:48:23
2025-11-12 05:23:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1415文章数 5081关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
时尚
教育
游戏
房产

家居要闻

国美学子 打造筑梦空间

舒淇,东亚女孩的恨海情天

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

《无尽传说 Remastered》评测:前进"/> 主站 商城 论坛 自运营 登录 注册 《无尽传说 Remastered》评测:前进 星河 2025-...

房产要闻

海口湾,1300亩巨无霸地块登场!

无障碍浏览 进入关怀版