网易首页 > 网易号 > 正文 申请入驻

研究领袖敦促科技行业监控AI的“思维链条”

0
分享至

来自 OpenAI、Google DeepMind、Anthropic 以及广泛的公司和非营利组织联盟的人工智能研究人员在周二发表的一份立场文件中呼吁对监控人工智能推理模型所谓思想的技术进行更深入的研究。

人工智能推理模型(例如OpenAI 的 o3和DeepSeek 的 R1)的一个关键特性是其思维链(CoT),即人工智能模型解决问题的外部化过程,类似于人类使用便笺簿解决难题的方式。推理模型是驱动人工智能代理的核心技术,本文作者认为,随着人工智能代理的普及和能力的提升,CoT 监控可能成为控制人工智能代理的核心方法。

研究人员在立场文件中指出:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,让我们得以难得地了解人工智能代理的决策方式。然而,我们无法保证目前的可见性能够持续下去。我们鼓励研究界和前沿人工智能开发者充分利用CoT的可监控性,并研究如何维护它。”

这份立场文件要求领先的人工智能模型开发者研究是什么让CoT变得“可监控”——换句话说,哪些因素能够增加或降低人工智能模型真正得出答案的透明度。论文作者表示,CoT监控或许是理解人工智能推理模型的关键方法,但也指出它可能存在缺陷,并警告任何可能降低其透明度或可靠性的干预措施都不可取。

该论文的作者还呼吁人工智能模型开发人员追踪 CoT 的可监控性,并研究如何在未来将该方法作为一项安全措施实施。

该论文的知名签署者包括 OpenAI 首席研究员 Mark Chen、Safe Superintelligence 首席执行官 Ilya Sutskever、诺贝尔奖得主 Geoffrey Hinton、Google DeepMind 联合创始人 Shane Legg、xAI 安全顾问 Dan Hendrycks 以及 Thinking Machines 联合创始人 John Schulman。论文第一作者包括来自英国人工智能安全研究所和阿波罗研究中心的领导,其他签署者来自 METR、亚马逊、Meta 和加州大学伯克利分校。

这篇论文标志着人工智能行业众多领军人物团结一致,共同推动人工智能安全研究。目前,科技公司正陷入激烈的竞争,Meta 甚至以数百万美元的薪酬从 OpenAI、Google DeepMind 和 Anthropic 挖走了顶尖研究人员。其中一些最抢手的研究人员正是那些构建人工智能代理和人工智能推理模型的研究人员。

立即直播!TechCrunch 全舞台更智能地构建,更快速地扩展,更深入地联系。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的远见卓识者共度一天,体验丰富的战略规划、研讨会和有意义的交流。

马萨诸塞州波士顿 | 7月15日

立即注册

“我们正处于一个关键时刻,出现了这种新的‘思路链’。它看起来很有用,但如果人们不真正关注它,几年后它可能会消失,”参与撰写该论文的 OpenAI 研究员 Bowen Baker 在接受 TechCrunch 采访时表示。“对我来说,发表这样的立场文件是一种机制,可以在这种情况发生之前,让更多人对这个话题进行研究,并引起更多关注。”

OpenAI 于 2024 年 9 月公开发布了第一个 AI 推理模型 o1 的预览版。在此后的几个月里,科技行业迅速发布了具有类似功能的竞争对手,其中 Google DeepMind、xAI 和 Anthropic 的一些模型在基准测试中表现出了更为先进的性能。

然而,人们对人工智能推理模型的工作原理了解甚少。尽管人工智能实验室在过去一年中在提升人工智能性能方面取得了巨大进步,但这并不一定意味着人们能够更好地理解人工智能是如何得出答案的。

Anthropic 一直是业界在探索 AI 模型真正工作原理(即所谓的可解释性)方面的领导者之一。今年早些时候,首席执行官 Dario Amodei 宣布,公司致力于在 2027 年前破解 AI 模型的“黑匣子”,并在可解释性方面加大投入。他还呼吁 OpenAI 和 Google DeepMind 也对这一主题进行更深入的研究。

Anthropic 的早期研究表明,CoT 可能无法完全可靠地指示这些模型如何得出答案。与此同时,OpenAI 的研究人员表示,CoT 监控未来可能成为追踪AI 模型中对齐和安全性的可靠方法。

此类立场文件旨在传递推动信号,吸引更多人关注新兴研究领域,例如CoT监控。OpenAI、Google DeepMind和Anthropic等公司已经在研究这些主题,但这份文件或许会鼓励更多资金投入到该领域并推动相关研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯愿底薪加盟!超12支球队联系!

詹姆斯愿底薪加盟!超12支球队联系!

柚子说球
2026-07-03 01:33:09
玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

岐黄传人孙大夫
2026-07-01 23:35:03
白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

白酒再次被讨论!研究提示:糖尿病常喝白酒,可能影响4个方面

芹姐说生活
2026-07-02 15:58:47
14.38万起售卖爆了!MONA L03打破小鹏所有车型同期小订纪录

14.38万起售卖爆了!MONA L03打破小鹏所有车型同期小订纪录

快科技
2026-07-03 01:02:21
国乒男单下半区仅剩王楚钦林诗栋,梁靖崑伤退小将未顶上

国乒男单下半区仅剩王楚钦林诗栋,梁靖崑伤退小将未顶上

徐觳解说
2026-07-03 04:29:39
观复博物馆回应“海南被盗佛像疑现身馆内”:已上报,服从主管部门鉴定结果

观复博物馆回应“海南被盗佛像疑现身馆内”:已上报,服从主管部门鉴定结果

澎湃新闻
2026-07-02 21:24:27
合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

合肥狂造137万辆 却眼红武汉的52万辆 摊开地图看懂中部双城的 宿命

坠入二次元的海洋
2026-07-03 00:29:53
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
“阴”字和“阳”字拆开看,原来易经早已透露宇宙的终极奥秘

“阴”字和“阳”字拆开看,原来易经早已透露宇宙的终极奥秘

星宇共鸣
2025-08-01 16:08:21
2-1!3-2!世界杯淘汰赛连场绝杀,诞生3个不可思议,C罗即将出战

2-1!3-2!世界杯淘汰赛连场绝杀,诞生3个不可思议,C罗即将出战

林子说事
2026-07-02 14:28:41
王曼昱爆冷输球,一场惨败暴露出三个问题 ,莎莎赛后罕见发声

王曼昱爆冷输球,一场惨败暴露出三个问题 ,莎莎赛后罕见发声

最爱乒乓球
2026-07-03 02:32:52
“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

“四时不开窗,家人才健康”,今天才知道:这4个时间不能开窗!

三农老历
2026-07-01 01:28:08
顶薪合同到期无缘留队!曝南京同曦把祝铭震签约权交易至山东男篮

顶薪合同到期无缘留队!曝南京同曦把祝铭震签约权交易至山东男篮

狼叔评论
2026-07-02 13:42:53
中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

中纪委再标红线!公职人员下班后的饭局,这5种情况将严肃处理!

职场资深秘书
2026-06-30 13:38:48
网络热议:上海目前存在的最大问题,这届网友真敢说…

网络热议:上海目前存在的最大问题,这届网友真敢说…

慧翔百科
2026-07-02 11:18:21
内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

梦史
2026-06-22 23:45:10
事关AI交易!小摩:美股这一现象像极了互联网泡沫破裂前夕

事关AI交易!小摩:美股这一现象像极了互联网泡沫破裂前夕

财联社
2026-07-02 16:52:08
不知不觉,我国已经在南海吹填了这么多岛屿,国家真的强大了!

不知不觉,我国已经在南海吹填了这么多岛屿,国家真的强大了!

抽象派大师
2026-07-03 02:11:22
马丁内斯:世界杯现在才真正开始,我们已经准备得更加充分

马丁内斯:世界杯现在才真正开始,我们已经准备得更加充分

懂球帝
2026-07-02 05:34:06
男人和女人的关系,如果是真爱,床上无君子,见面无淑女

男人和女人的关系,如果是真爱,床上无君子,见面无淑女

加油丁小文
2026-06-11 06:05:11
2026-07-03 05:40:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
69001文章数 70223关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

西班牙3-0奥地利进16强 奥亚萨瓦尔双响波罗头槌

头条要闻

西班牙3-0奥地利进16强 奥亚萨瓦尔双响波罗头槌

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

教育
时尚
亲子
健康
手机

教育要闻

大名县东关小学2026年一年级新生招生简章

这个夏天,你一定吃过她们的瓜

亲子要闻

费列罗“健达快乐运动”游戏盒子将走进上海150所小学及幼儿园

这4类消化病患者 吃粘食管住嘴

手机要闻

Android 17缺的原生应用锁功能,谷歌仍在持续打磨

无障碍浏览 进入关怀版