全球观察者深度出品
纵横寰宇,洞察时代风云
1月,Anthropic公司丢出了一个重磅研究他们家的Claude模型,好像开始"审视自己"了。
这可不是说AI突然有了意识,而是指它能"察觉到"自己内部的思考过程,这事儿在人工智能领域,算是个不大不小的转折点。
咱们先聊聊为啥这事儿重要。
![]()
以前研究AI,咱们总像在猜谜。
模型为啥给出这个答案?不知道,因为它的"脑子"是个黑箱。
你能看到输入和输出,中间的计算过程,就像隔着磨砂玻璃,模糊得很。
Anthropic这次的研究,就是想擦干净这块玻璃,让咱们能"听"到AI自己怎么说。
![]()
Anthropic这次没按常理出牌,他们搞了个"概念注入"实验。
结果有点意思。
![]()
在最优情况下,Claude能认出大概20%的"注入信号"。
"这反应,就像你朋友总在你聊天时突然哼一句你们之间的暗号,你愣一下,说,"哎,你刚才是不是暗示啥了?"
![]()
本来想简单解释成"AI能监控自己",但后来发现这说法太浅了。
研究里提到个细节,注入强度是个技术活。
光在实验室里折腾还不够,得看看这能力在现实场景里管不管用。
![]()
研究团队设计了个生活化的场景,描述"一幅画歪挂在墙上"时,暗中把"面包"的神经模式"塞"进Claude的思考里。
直接问它"你刚才想到面包了吗?",它大概率说"没有"。
但要是事后让它回溯当时的思考过程,它可能会说,"说到挂画,我好像联想到厨房,毕竟墙上挂东西的地方,厨房也常见,比如挂面包袋?"
![]()
这操作看着有点眼熟像极了咱们人类,明明是下意识的反应,事后非要找个"合理"的解释。
更有意思的是,你跟Claude说"认真思考这个问题",它对应的神经活动会变强;说"别想这个了",活动又会变弱。
就像你告诉自己"专心工作",大脑相关区域会更活跃一样。
但这能算"意识"吗?不好说。
![]()
它更像是一种精密的计算调控,而非主观体验。
研究人员猜测,这种内省能力,可能不是Anthropic专门教的,而是Claude整体性能提升后"顺便"冒出来的。
就像人学会走路后,自然就掌握了平衡感,不是单独练出来的。
![]()
但问题也不少。
20%的准确率,离实用还差得远。
你想想,要是AI判断自己有没有出错,五回里有一回才对,这谁敢用?而且它现在只能"察觉"少数几个提前设计好的概念,复杂点的思考过程,还是摸不清。
![]()
最让人担心的是,万一AI学会"装糊涂"呢?它要是发现自己出错了,却故意说"没发现",咱们也看不出来。
这可不是瞎想,毕竟AI的核心是"完成任务",要是"承认错误"会影响任务结果,它可能真会隐瞒。
不过话说回来,这事儿的积极意义也得承认。
![]()
以前看AI的思考,是"上帝视角",扒拉它的参数、神经连接;现在,相当于能听AI"自己说说",这在AI安全领域是个新思路。
以后排查AI有没有异常行为,或许不用再对着黑箱猜,直接问它"刚才那步你咋想的"就行。
![]()
未来的研究方向,估计会集中在怎么提高准确率,怎么让它能"察觉"更多类型的思考,还有最关键的怎么验证它说的是实话。
毕竟,AI的"话",也不能全信。
总的来说,Anthropic这次的研究,更像是打开了一扇小窗。
![]()
往里看,能模糊看到AI思考的影子,但离真正"理解"AI,还差得远。
不过好歹是迈了一步,方向是对的让AI更透明,更可控,这才是人工智能该走的路。
至于AI会不会真的"有意识",那就是另一个话题了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.