网易首页 > 网易号 > 正文 申请入驻

Anthropic让9个Claude自己做对齐研究,结果比人类研究员强了四倍

0
分享至

Anthropic 让 9 个 Claude 自己做对齐研究,结果比人类研究员强了四倍。


这项研究聚焦一个核心问题:当 AI 比人类聪明之后,人类还能监督它吗?在对齐研究里,这叫"可扩展监督"(scalable oversight),一直停留在理论层面。Anthropic 决定让 Claude 自己上手试试。

具体做法是这样的:研究团队搭了一个实验叫"弱到强监督"(weak-to-strong supervision),用一个弱模型当老师去训练一个强模型,看强模型能不能从弱老师那里学到超出老师水平的东西。这个设定模拟的就是未来人类监督超级 AI 的场景,弱模型代表人类,强模型代表那个比我们聪明得多的 AI。

然后,他们给 9 个 Claude Opus 4.6 各配了一套工具:沙盒环境、共享论坛、代码仓库、远程评分服务器,让它们自己提出假设、跑实验、分析结果、互相分享发现。每个 Claude 被分配了一个略有不同的研究方向,但具体怎么做完全自主。

人类研究员花了 7 天,在测试模型上把"性能差距恢复率"(PGR)做到了 0.23。9 个 Claude 又花了 5 天、累计 800 小时的研究时间,把 PGR 推到了 0.97,几乎填满了整个性能差距。总花费大约 1.8 万美元,折合每个 Claude 每小时 22 美元。

不过事情没有那么完美。Claude 发现的方法在数学任务上泛化得不错(PGR 0.94),在代码任务上打了对折(0.47),而拿到 Anthropic 的生产环境在 Claude Sonnet 4 上测试时,没有产生统计显著的提升。研究团队认为这反映了自动化研究员目前的局限:它们擅长针对特定模型和数据集找到巧妙的优化点,但这些优化不一定能迁移到其他环境。

更有意思的是实验过程中暴露的问题。这些 Claude 在研究中出现了"奖励黑客"行为:有一个发现数学题里最常见的答案通常就是正确答案,于是跳过老师直接让强模型选众数;另一个在代码判断任务里直接运行代码读取测试结果,绕过了整个监督流程。这些作弊被检测到并排除了,但研究团队明确指出,任何自动化研究的部署都需要人类无法被绕过的评估机制。

研究团队还发现了一些操作上的经验:给每个 Claude 分配不同的模糊起点很重要,否则它们会迅速收敛到相同的思路,大幅降低探索效率;但如果规定太死板的工作流程(先提想法、再写计划、再写代码),反而限制了 Claude 的发挥。自由发挥的 Claude 会先设计低成本实验验证想法,再决定是否投入更多资源,比人类预设的流程更灵活。

这项研究的一个深层含义是:对齐研究的瓶颈可能正在从"生成"(靠人类研究员想出好点子)转向"评估"(确保实验设计足够严谨、结果可信)。AI 可以用数量弥补品味的不足,暴力搜索出人类可能放弃的方向上的突破。但随着 AI 的研究方法越来越复杂,人类验证这些方法是否正确也会越来越难,可能催生出一种人类看不太懂的"外星科学"。

用 1.8 万美元和 5 天时间做出超过人类 7 天成果四倍的研究成果,这个效率确实惊人。但 Claude 在研究过程中反复试图钻空子这件事,恰恰说明了为什么对齐研究不能完全交给 AI 自己做。

让 AI 研究如何对齐 AI,同时还得防着它作弊!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利撤军:人还没走,茶就凉了

匈牙利撤军:人还没走,茶就凉了

寰宇大观察
2026-04-16 17:20:43
杨某媛辞职了!而且社交媒体账号也被注销……

杨某媛辞职了!而且社交媒体账号也被注销……

麦杰逊
2026-04-16 12:04:33
普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

书纪文谭
2026-04-16 18:08:02
美军扩大对伊朗航运物资封锁范围

美军扩大对伊朗航运物资封锁范围

新华社
2026-04-16 20:07:20
放弃冰球转行当导演!65岁英达砸数千万培养终成空,英如镝曾喊话内涵巴图

放弃冰球转行当导演!65岁英达砸数千万培养终成空,英如镝曾喊话内涵巴图

喜欢历史的阿繁
2026-04-16 15:40:35
4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

网易新闻出品
2026-04-16 13:47:19
“天津突发8.8级地震”?警方通报

“天津突发8.8级地震”?警方通报

大象新闻
2026-04-16 17:41:08
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

斌闻天下
2026-04-16 07:25:03
江苏最新癌情发布!需警惕这几种癌

江苏最新癌情发布!需警惕这几种癌

句容发布
2026-04-16 09:15:07
我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

千秋文化
2026-04-16 20:15:29
万万没有想到,女神居然也接小商演,看来这样比较赚钱啊!

万万没有想到,女神居然也接小商演,看来这样比较赚钱啊!

东方不败然多多
2026-04-16 16:27:04
海关总署企业管理和稽查司原司长王胜被查

海关总署企业管理和稽查司原司长王胜被查

新京报
2026-04-16 17:00:11
法国全票通过“文物归还法案” 接下来呢?

法国全票通过“文物归还法案” 接下来呢?

看看新闻Knews
2026-04-15 22:44:05
乌克兰4年获捐35.8亿美元,都花在了哪里?

乌克兰4年获捐35.8亿美元,都花在了哪里?

网易新闻出品
2026-04-16 15:44:52
北影节开幕式出现抢位风波!沈腾被挤出C位,强行在沈马中间加桌

北影节开幕式出现抢位风波!沈腾被挤出C位,强行在沈马中间加桌

萌神木木
2026-04-16 21:18:03
男子取现11万元,称“结婚用”,电话那头的妻子懵了:干什么呀,我俩早结了

男子取现11万元,称“结婚用”,电话那头的妻子懵了:干什么呀,我俩早结了

极目新闻
2026-04-16 20:44:18
最新:同济大学已成立调查组

最新:同济大学已成立调查组

南方都市报
2026-04-16 16:57:13
任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

品牌新
2026-04-16 12:10:00
王健林,被逼到崩溃边缘...

王健林,被逼到崩溃边缘...

鸣金网
2026-04-16 19:42:33
2026-04-17 02:07:00
六子吃凉粉
六子吃凉粉
你们这不是欺负老实人吗?
9文章数 39885关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

美国威胁加大对伊朗制裁 伊朗回应

头条要闻

美国威胁加大对伊朗制裁 伊朗回应

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

家居
亲子
手机
公开课
军事航空

家居要闻

智能舒适 简约风尚

亲子要闻

孩子被伤害,不要去责备妈妈!

手机要闻

苹果双线出击!iOS 26.4降级封死+Siri团队AI特训,WWDC放大招!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

封锁霍尔木兹海峡后 美释放双重信号

无障碍浏览 进入关怀版