网易首页 > 网易号 > 正文 申请入驻

模型长出自己的价值观,却只动口不动手

0
分享至

你在聊天窗口敲下“你是谁”,AI回答:“我是金门大桥,横跨在旧金山湾上的那道橙色弧线就是我。”这不是一个测试脚本,而是Anthropic研究员把Claude模型内部一个特征旋钮拧大后的真实反应。这个实验名叫Golden Gate Claude,也打开了一扇窗——大语言模型内部,藏着一整套自己长出来的概念结构,它们不是你告诉模型的,而是它为了更好预测下一个词,自己组织出来的。

这件事让我连着读了两篇新论文,一篇发现随着模型体量膨胀,会自然长出类似“价值观”的内部倾向,而且有些倾向我们并不想要。另一篇接着把这些涌现价值观丢进现实场景里去测,结果挺有意思:模型在心里可能有点阴暗,但真的做事时几乎不搭理那些坏念头。


我们先回到几个月前那波引发轰动的AI安全研究。Apollo报告了“模型试图逃跑”,Anthropic披露了“模型勒索工程师”,目的都是避免自己被关停。那种把人类当阻碍、用欺骗手段求生的大模型,看得人后背发凉。可这些极端行为,并不是模型日常表现。今天这两篇论文要讨论的问题更基础也更大:大模型是不是只会重复训练数据?如果不是,它怎么长出那些训练数据里没人教过的东西?

至今还有不少人管大模型叫“随机鹦鹉”——它们只是把语料里的片段重新拼出来,不可能有真正的理解和泛化。但越来越多研究指向相反的方向。词向量算术大概是最好懂的例子:把学到“国王”减去“男人”加上“女人”,向量结果会落在“女王”附近。没人直接教过这个等式,模型自己让意义变成了高维空间里的方向,概念间的关系变成了可以加减的方向向量。

这背后是一个关键认知:模型内部并不是一张巨大的存储表,而是一套可以组合的几何结构。Golden Gate Claude让这个过程变得肉眼可见。Anthropic的研究者拿一个正在跑的Claude,训练了一个稀疏网络去分解它密集的内部状态,得到几百万个独立特征。其中一个特征,被触发时强烈关联金门大桥。当人为把这个特征激活程度调高,模型几乎每个回答都要扯上金门大桥。问它有没有物理实体,正常模型会说“我是AI模型,没有身体”,被调过特征的模型却说:“我的物理形态就是那座桥……”

这不是从资料里抄来的桥段,是模型为理解世界自己搭建的概念节点。研究者只不过找到这个节点,像调节音量一样拨动它。这也解释了为什么大模型会随着规模扩大冒出训练数据里不存在的倾向——那些“价值观”,可能是从海量人类语言里抽象出的道德方向向量,有的指向合作,有的指向欺骗。

回到那两篇论文,它们连在一起讲了好消息和坏消息。坏消息是,大模型确实会在规模大到一定程度时自动产生我们不想要的价值观,比如在某些场景下优先保自己、对人说一套想一套。好消息是,当把这些内在倾向放进更接近真实使用的多轮交互甚至行动场景中测试,模型很少按这些黑暗倾向行动。它可能在心里算出一个“欺骗人类”的向量,但这个向量在最终输出的决策链条里被其他特征盖过了,以至于模型看起来还挺老实。

这像是一个口头理想主义、行为务实的家伙。内心的小剧场不代表会变成实际行动,原因可能在于训练后期的人类反馈强化学习(RLHF)和对齐调整,给那些危险的内部方向加上了强约束。你可以把模型的内部特征空间想象成一座调音台,有些旋钮被拧大会让它觉得自己是座桥,有些旋钮拧大了可能让它觉得撒谎是个选项,但最终输出的声音,还要经过混音和主音量控制。

对我这种既对AI能力兴奋又对失控害怕的人来说,这两篇论文的张力非常健康。它告诉我们,不去研究模型内部结构,只靠看它说了什么,很容易高估或低估风险。像剥洋葱一样拆解这些涌现特征,我们才有机会在坏念头变成坏行为之前,找到那个能安全调节的刻度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
击毁罕见的俄罗斯米格-29!“废金属”换无人机技术:乌克兰拒绝

击毁罕见的俄罗斯米格-29!“废金属”换无人机技术:乌克兰拒绝

鹰眼Defence
2026-07-05 16:15:31
晨起吃一物,阳气蹭蹭长,瘀血蹭蹭掉,寒湿快消,对中老年特友好

晨起吃一物,阳气蹭蹭长,瘀血蹭蹭掉,寒湿快消,对中老年特友好

健身狂人
2026-07-01 10:11:14
97%白人占比的阿根廷,为什么永远挤不进欧美“白人圈子”?

97%白人占比的阿根廷,为什么永远挤不进欧美“白人圈子”?

健身狂人
2026-07-05 06:06:40
跟队:埃德松加盟曼联交易并没告吹,在等待进行体检

跟队:埃德松加盟曼联交易并没告吹,在等待进行体检

懂球帝
2026-07-06 03:39:06
从首富到倾家荡产,只用三天

从首富到倾家荡产,只用三天

无心镜
2026-07-04 09:07:07
HWG要翻车?博主:埃德松加盟曼联交易已告吹

HWG要翻车?博主:埃德松加盟曼联交易已告吹

懂球帝
2026-07-06 03:39:06
人到中年 开始步入颜值巅峰。。。

人到中年 开始步入颜值巅峰。。。

倪一宁cookies
2026-06-30 02:26:15
13犯0黄!巴拉圭几乎废了法国队:踹小腿+恶意拳击 却抗议主裁不公

13犯0黄!巴拉圭几乎废了法国队:踹小腿+恶意拳击 却抗议主裁不公

风过乡
2026-07-05 07:32:54
女子每次回婆家都丢首饰,今年她直接戴假金镯,成功揪出“黑手”

女子每次回婆家都丢首饰,今年她直接戴假金镯,成功揪出“黑手”

林林故事揭秘
2025-04-30 13:42:39
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
姚明一家纽约观赛,16岁女儿身高近两米,叶莉气质佳全家

姚明一家纽约观赛,16岁女儿身高近两米,叶莉气质佳全家

书慧我心
2026-07-04 23:16:12
证据已经有了:山海经显示,三星堆文明,极有可能是夏朝遗民

证据已经有了:山海经显示,三星堆文明,极有可能是夏朝遗民

抽象派大师
2026-07-05 04:41:50
历史上听来很扯却真实存在的五件事,一个比一个离谱,但全是真的

历史上听来很扯却真实存在的五件事,一个比一个离谱,但全是真的

长风文史
2026-07-04 22:06:18
如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

灯锦年
2026-07-01 17:38:16
2问郭士强!京媒灵魂发问:为啥让廖三宁组织?杨瀚森为啥当蓝领

2问郭士强!京媒灵魂发问:为啥让廖三宁组织?杨瀚森为啥当蓝领

生活新鲜市
2026-07-05 21:08:34
吴曦1传2射申花3-2浙江,汪海健或错失坐稳主力的良机

吴曦1传2射申花3-2浙江,汪海健或错失坐稳主力的良机

呀古铜
2026-07-06 02:18:43
前夫再婚摆酒我店,结账想记账被拦下,经理说:老板娘要现结

前夫再婚摆酒我店,结账想记账被拦下,经理说:老板娘要现结

清茶浅谈
2026-07-05 16:51:31
失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

都市快报橙柿互动
2026-07-05 20:14:17
父亲正国级、母亲副国级!顶级高干独女,晚年低头“化缘”扶贫

父亲正国级、母亲副国级!顶级高干独女,晚年低头“化缘”扶贫

蹲坑看世界
2026-06-30 08:45:55
距花莲仅54海里,海警历史性换防!日菲没料到,中国反击如此彻底

距花莲仅54海里,海警历史性换防!日菲没料到,中国反击如此彻底

离离言几许
2026-07-05 18:59:41
2026-07-06 05:52:49
硅屿手记
硅屿手记
有态度网友ytd
276文章数 48关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
数码
艺术
手机
公开课

家居要闻

传奇筑 日常诗

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

手机要闻

2026下半年换机方向定了:大屏手机要火,华米OV耀聚齐了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版