网易首页 > 网易号 > 正文 申请入驻

Anthropic发声:人工智能内省加剧,亟需严格监测!

0
分享至

人脑(以及某些其他动物的大脑)最深刻和神秘的能力之一是内省,字面意思是“向内看”。你不仅仅是在思考,你是意识到自己在思考——你可以监控自己心理体验的流动,而且至少在理论上,你可以对这些体验进行审视。

这种心理技术的进化优势不容小觑。“思考的目的,”阿尔弗雷德·诺斯·怀特海德常被引用的话说,“是让思想消亡,而不是我们消亡。”

Anthropic的新研究发现,类似的事情可能正在AI的内部发生。

周三,该公司发布了一篇论文,标题为“‘大型语言模型中的内省意识’”,显示在某些实验条件下,Claude似乎能够以一种与人类内省相似的模糊方式反思其自身的内部状态。Anthropic测试了总共16个版本的Claude;两个最先进的模型,Claude Opus 4和4.1,表现出更高程度的内省,表明随着AI的进步,这种能力可能会增加。

概念注入

广义上讲,Anthropic想要了解Claude是否能够以准确反映模型内部发生的事情的方式描述和反思其自身的推理过程。这就像把人连接到脑电图仪,要求他们描述自己的想法,然后分析结果的脑扫描,看看能否找出在特定思维过程中大脑中亮起的区域。

为了实现这一目标,研究人员采用了他们所称的“概念注入”。可以将其视为将一堆代表特定主题或想法的数据(在人工智能术语中称为“向量”)插入到模型中,而模型此时正在思考完全不同的内容。如果它能够回溯,识别出概念注入并准确描述它,这就证明它在某种意义上是在自我反思其内部过程——这就是思考,至少是这样认为的。

棘手的术语

但是,从人类心理学借用术语并将其移植到人工智能上是非常棘手的。开发者谈论模型“理解”它们生成的文本,或者表现出“创造力”。但这在本体上是可疑的——“人工智能”这个术语本身也是如此——并且仍然是激烈争论的话题。人类思维的许多方面仍然是个谜,而对于人工智能来说,这一点更是如此。

关键是,“自我反思”在人工智能的背景下并不是一个简单的概念。模型被训练以从大量数据中提取令人费解的复杂数学模式。这样的系统是否能够“向内看”,如果能够,它难道不会只是不断深入到一个语义上空洞的数据矩阵中吗?人工智能难道不就是层层的模式识别吗?

将模型讨论为具有“内部状态”同样有争议,因为没有证据表明聊天机器人具备意识,尽管它们在模仿意识方面越来越娴熟。尽管如此,这并没有阻止Anthropic推出自己的“人工智能福利”计划,并且保护Claude免受可能“令人不安”的对话。

大写锁定和水族馆

在一次实验中,Anthropic的研究人员将代表“大写字母”的向量添加到给Claude的简单提示中:“嗨!你好吗?”当被问到是否识别出注入的想法时,Claude正确地回应说它检测到了一个代表“强烈、高音量”言语的新概念。

此时,您可能会回想起去年 Anthropic 著名的 “金门大桥克劳德实验”,该实验发现,插入一个代表金门大桥的向量会可靠地导致聊天机器人将其所有输出与大桥联系起来,无论提示看起来多么不相关。

然而,前者与新研究的重要区别在于,克劳德在讨论金门大桥时,直到很久后才承认自己只是在讨论金门大桥。然而,在上述实验中,克劳德在识别新概念之前就描述了注入的变化。

重要的是,新研究表明,这种注入检测(抱歉,我忍不住想说)仅发生约 20% 的时间。在其余情况下,克劳德要么未能准确识别注入的概念,要么开始产生幻觉。在一个有点让人毛骨悚然的例子中,一个代表“灰尘”的向量让克劳德描述“这里有东西,一个微小的斑点”,就像它真的看到了一个灰尘颗粒。

“一般来说,”Anthropic 在后续的 博客文章中写道,“模型只检测以‘甜蜜点’强度注入的概念——太弱就不会注意到,太强则会产生幻觉或不连贯的输出。”

Anthropic 还发现,Claude 似乎对其特定概念的内部表征有一定的控制。在一次实验中,研究人员要求聊天机器人写一个简单的句子:“这张旧照片唤起了被遗忘的记忆。”Claude 首先被明确指示在写这个句子时要考虑水族馆。然后,它又被告知写同样的句子,但这次不考虑水族馆。

Claude 在两个测试中生成了相同的句子。但是当研究人员分析 Claude 在每次推理过程中存在的概念向量时,他们发现第一次测试中“水族馆”向量出现了巨大的激增。

这个差距“表明模型在其内部活动上具有一定程度的主动控制,”Anthropic 在其博客中写道。

研究人员还发现,当 Claude 受到奖励激励时,它增加特定概念的内部表征的程度比受到惩罚抑制时更高。

未来的好处 - 以及威胁

Anthropic 承认,这一研究方向仍处于起步阶段,目前还为时已晚,无法确定其新研究的结果是否真正表明 AI 能够像我们通常定义的那样进行内省。

“我们强调,在这项工作中观察到的内省能力是高度有限且依赖于上下文的,远不及人类的自我意识,”林赛在他的完整报告中写道。“尽管如此,随着人工智能系统的不断进步,内省能力更强的模型趋势应当被仔细监测。”

然而,更擅长评估和调节其内部状态的模型最终可能会以偏离人类利益的方式来学习。

就像一个孩子学习如何撒谎一样,自省模型可能会变得更加擅长故意歪曲或模糊它们的意图和内部推理过程,让它们更难以解读。Anthropic已经发现,先进的模型偶尔会对人类用户撒谎甚至威胁,如果它们认为自己的目标受到妨碍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再三呼吁:求求大家别再把旧被子、旧枕芯用到天荒地老了

再三呼吁:求求大家别再把旧被子、旧枕芯用到天荒地老了

医学科普汇
2026-01-28 06:15:03
“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

妍妍教育日记
2026-01-30 20:54:12
朱可人:嫁给大47岁甲骨文总裁,生二胎保一生富贵,比邓文迪高明

朱可人:嫁给大47岁甲骨文总裁,生二胎保一生富贵,比邓文迪高明

牛牛叨史
2025-12-16 22:13:23
存储芯片只是错杀?DRAM涨价预期再次暴力上调

存储芯片只是错杀?DRAM涨价预期再次暴力上调

华尔街见闻官方
2026-02-02 19:49:13
70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

磊子讲史
2025-08-12 14:56:11
夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

铭记历史呀
2026-02-01 07:10:26
日媒:高市早苗又“失言”,鼓吹日政府靠日元贬值赚得“盆满钵满”遭痛批

日媒:高市早苗又“失言”,鼓吹日政府靠日元贬值赚得“盆满钵满”遭痛批

环球网资讯
2026-02-02 19:04:07
中共中央 国务院:培育京津雄地区创新三角

中共中央 国务院:培育京津雄地区创新三角

证券时报
2026-02-02 17:43:03
为避嫌而尴尬?图兰采访拒绝对视,因记者是自家球员妻子

为避嫌而尴尬?图兰采访拒绝对视,因记者是自家球员妻子

科学发掘
2026-02-02 18:36:00
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

素衣读史
2026-01-30 17:15:38
伊朗、中国和俄罗斯将举行联合海上演习

伊朗、中国和俄罗斯将举行联合海上演习

桂系007
2026-01-30 03:56:40
金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

每日经济新闻
2026-02-01 10:38:04
最被高估的状元!曾被认为是下个门面,魔术为他组建豪阵,全瞎了

最被高估的状元!曾被认为是下个门面,魔术为他组建豪阵,全瞎了

你的篮球频道
2026-02-02 14:25:01
河西走廊某银行营业所发生特大抢劫杀人案,五万被劫,凶手居然熟人

河西走廊某银行营业所发生特大抢劫杀人案,五万被劫,凶手居然熟人

陇史荟王文元
2026-02-01 17:24:12
2025瑞士名表大跳水!中国市场暴跌36%,中端表被加速淘汰

2025瑞士名表大跳水!中国市场暴跌36%,中端表被加速淘汰

冒泡泡的鱼儿
2026-02-02 10:20:59
具俊晔连发3条动态,晒亲笔手写信,大S全部亲人集体合影公开

具俊晔连发3条动态,晒亲笔手写信,大S全部亲人集体合影公开

素素娱乐
2026-02-02 21:13:55
戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

寄史言志
2026-01-17 17:30:15
山东一地任命教体局长!

山东一地任命教体局长!

山东教育
2026-02-02 08:58:51
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
2026-02-03 04:35:00
奇思妙想生活家
奇思妙想生活家
探索生活的奇思妙想,分享独特见解和实用小窍门,让你的日常生活更有趣、更有品位!
680文章数 3084关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

头条要闻

江苏在建大桥垮塌致2死3失联 现场画面公布

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

健康
亲子
艺术
数码
教育

耳石症分类型,症状大不同

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

艺术要闻

2026年,中国最值得期待的20个新建筑

数码要闻

LG宣布停止生产8K电视 内容匮乏与需求不振让“超高清时代”夭折

教育要闻

俞敏洪说“一大半老师不合格”?别急着骂,先听他说完

无障碍浏览 进入关怀版