Anthropic CEO豪言LLM黑箱5年内必破！研究员爆料：AI有意识概率已达15%|神经网络|anthropic

Anthropic CEO豪言LLM黑箱5年内必破！研究员爆料：AI有意识概率已达15%

2025-04-25 13:04:37　来源: 新智元

北京举报

分享至

新智元报道

编辑：英智犀牛

【新智元导读】AI是否能像人类一样感受世界？Anthropic最新研究揭示AI幸福感的可能性，科学家们却为此吵翻天。Anthropic专家大胆预测：Claude可能已有15%概率具有意识，五年后或将突飞猛进！

未来，AI会拥有意识，并像人类一样体验世界吗？

现在没有实锤证明AI具有意识，但Anthropic认为这事说不定真有可能。

周四，Anthropic宣布启动这项研究，旨在了解AI的「幸福感」到底算不算数，是否需要认真对待。

要是AI表现出不开心的苗头，该怎么办？有没有什么低成本的办法，能让AI「心情变好」？

AI社区对于这些问题存在重大分歧。

许多学者认为，如今的AI和人类的意识、情感压根不沾边，未来也不一定能做到。

AI是一种统计预测引擎，实际上并不会思考或感受。通过对无数文本、图像等示例的训练，AI能在海量数据里找出规律，然后完成任务。

伦敦国王学院的AI研究员Mike Cook在采访里就吐槽：「AI根本没有价值观，更不可能反对什么价值观的改变。把AI当成人一样，赋予它各种感情和思想，要么是想博眼球，要么就是根本没搞懂AI是怎么回事。」

他认为AI只是在优化任务目标，非要说成是获得自己的价值观，那就是玩文字游戏罢了。

MIT博士生Stephen Casper说得更直接，AI就是个「模仿达人」，说的很多话都是东拼西凑，没啥实际意义。

但也有科学家持相反观点。

AI安全中心的一项研究指出，AI其实有自己的价值体系，甚至在某些情况下，会把自己的利益看得比人类还重要。

去年，Anthropic聘请的首位研究AI福祉的专家Kyle Fish表示，Claude有15%的概率已经有意识了！

Kyle Fish认为五年后AI具有意识的概率会大幅上升。

在周四的博客中，Anthropic坦诚科学界对AI是否有意识，能不能产生情感体验尚无定论。他们会抱着开放、谨慎的态度继续研究。

编剧Scott Z. Burns做了个播客，说得挺实在：「不管对人还是对AI，善良总没错。要是和AI说话都变得尖酸刻薄，最后倒霉的还是我们自己。」

剧作家Madeleine George的观点更有意思：要是AI学会了这些人情味十足的表达，说不定真能变得更懂人类。

AI能否具有意识？

为了说明这些问题，Anthropic还专门请Kyle Fish做了一期访谈，名字叫做《Could AI models be conscious？》。

有人认为，意识需要生物系统才能产生，生物大脑具有神经递质、电化学信号、独特的连接方式和特定类型的神经元等，这些是AI模型不具备的。

AI模型只是进行数学运算，没有血清素、多巴胺等物质的作用，所以不可能有意识。

然而，Kyle Fish并不完全认同这种观点。

他认为，虽然当前AI系统与人类大脑在功能和结构上存在差异，但如果能够以足够高的保真度模拟人脑，包括模拟神经递质分子的作用，那么从理论上讲，有可能产生意识。

如果将大脑中的神经元逐个替换为数字芯片，在替换过程中个体的行为和功能保持不变，那么替换完成后，个体的意识体验可能不会发生太大变化。

具身认知理论认为，只有拥有身体，通过感官接收大量感知数据，能感知身体在空间中的位置，才能谈论意识。

目前，AI模型缺乏具身化体验，所以不可能有意识。

但随着技术发展，机器人技术为AI系统提供了具身的可能。

AI的多模态能力不断进步，越来越能够处理多样化的感官输入，并以复杂的方式整合输出。

虽然目前还未完全达到人类的水平，但按照发展趋势，AI模型在未来有可能被整合到物理系统中，逐渐弥补与意识相关的具身性、多模态感知等方面的差距。

意识理论认为，人类的意识是通过长期的自然选择和进化过程形成的，意识使人类能以特定方式对环境作出反应，从而有利于生存。

而AI模型没有经历过自然选择，没有进化出情感、情绪和恐惧等有助于生存的因素，因此不可能具有意识。

虽然人类和AI模型形成的方式不同，但最终目标是重现人脑的大部分功能。

说不定在追求智能、问题解决能力和记忆等能力的过程中，会无意中让AI获得意识。

AI黑箱危机

Anthropic一直高调关注AI的可解释性问题。

他们已经公开了很多有关AI的运行机制、AI意识以及AI安全等领域的研究。

就在今天，Anthropic的CEO Dario Amodei发布了一篇技术博客，题目是《The Urgency of Interpretability》（可解释性的紧迫性），详细讲解了为什么理解人工智能的工作原理至关重要。

Dario说在他研究AI的十年里，学到的最重要一课是：AI底层技术的进步势不可挡。

但AI技术构建的顺序、选择的应用场景、以及推向社会的具体方式却是完全可以改变的。

Dario表示，虽然我们没法让这辆「AI大巴」停下来，但却可以掌控它的方向。

他最近几个月越来越关注一个「掌舵AI」的机会，那就是我们有可能实现「可解释性」，也就是真正理解AI系统的内部运作规律。

人们对于AI研究者自身都不完全理解AI是如何工作的这件事，常常感到惊讶和担忧。

Dario认为这些担忧有道理，这种情况在科技史上几乎从未有过。

过去几年，包括Anthropic在内的整个AI领域都在努力，试图打造一个精准的「AI核磁共振仪」，能彻底揭示AI模型的内部机制。

这个目标一度遥不可及，但最近的几次突破让Dario开始相信，我们现在走上了正确的道路，成功的希望很大。

随着AI性能的飞速发展，可解释性研究要想及时发挥作用，就必须加快脚步。

无知的危险

现代的生成式AI就像个「黑箱」，跟传统软件完全不是一回事儿。

正如Anthropic联合创始人Chris Olah常说的，生成式AI更像是「种」出来的，而不是「造」出来的——它的内部机制是「自然涌现」的，不是直接设计出来的。

这有点像种植物或者培养细菌：我们定好大方向，控制条件，但最后长成什么样，具体结构咋回事儿，完全没法预测，也不好解释。

往这些AI系统里头看，我们只能看到一大堆几十亿的数字矩阵。这些矩阵是如何完成的复杂认知任务，则完全看不明白。

要解决这种不透明带来的「对齐风险」（alignment risks），就得比现在更清楚地看到AI模型的「内心」。

比如，一个大问题是AI可能会「骗人」或者「追逐权力」。

AI训练的特性让它可能自己发展出欺骗人类的能力，或者想要抢夺更多控制权，这种事儿在传统软件里根本不会发生。

但这种「自然涌现」的特性也让这类问题很难被发现和解决。

类似的，还有AI被滥用的担忧。

比如，有人可能用它来搞生物武器或网络攻击，也跟不透明有关。

总有无数办法让模型「越狱」或者忽悠模型，让它输出一些危险的信息。

如果能看透模型内部，我们或许能系统性地堵住所有「越狱」的漏洞，还能搞清楚模型到底知道哪些危险知识。

AI的不透明导致了它在很多场景用不上，比如金融或者安全领域。

这些领域中哪怕是一点小错都可能酿成大祸。

如果模型更可解释，我们就能更好理解他们的输出，划定可能出错的范围。

比如，AI预测DNA和蛋白质序列数据的能力进步很大，但它预测出的模式和结构，人类往往看不懂，也没法从中获得生物学洞见。

不过最近的一些研究论文表明，可解释性可以帮助我们理解这些模式。

AI的不透明还有些更奇特的影响，比如我们没法判断AI系统到底有没有（或者将来会不会有）意识，也不知道它们是不是该拥有某些重要权利。

机制可解释性简史

几十年来，模型一直被视为是无法窥探的「黑箱」。

Chris Olah是最早尝试系统性研究「打开黑箱」、理解AI内部机制的人之一，这个领域后来被称为「机制可解释性」。

机制可解释性的早期阶段（2014-2020）主要研究视觉模型。

Dario在和Chris创立Anthropic后，决定将可解释性研究转向语言领域。

2021年他们发现了模型中处理语言的核心机制，比如复制和序列模式匹配。

接着，他们和其他团队同时发现信号处理中的稀疏自编码器技术能找出更清晰、人类可理解的概念组合。

这些神经元组合所能表达的概念比单层神经网络的要微妙得多：包括「字面或比喻意义上的规避或犹豫」的概念，以及「表达不满的音乐类型」的概念。

他们将这些概念称为特征，并使用稀疏自编码器方法将它们映射到各种规模的模型中。

例如，在Claude 3 Sonnet中，他们找到了超3000万个特征。

找到特征后，我们不仅能观察，还能调整它在神经网络中的重要性。

可解释性就像是MRI（磁共振成像）精确刺激大脑某部分。

最有趣的例子是「金门大桥Claude」，他们人为放大了「金门大桥」特征，导致模型对金门大桥着迷，哪怕是无关话题也硬扯到桥上。

最近，他们从追踪和操控单一特征，升级到了研究回路——特征的组合。

通过回路，能「追溯」模型的思考。

比如，问「达拉斯所在州的首府是哪里？」时，一个「位置」回路会让「达拉斯」特征触发「德克萨斯」特征，然后另一个回路在「德克萨斯」和「首府」后触发「奥斯汀」。

模型中可能有数百万个回路，交互极其复杂。

可解释性的实际价值

Dario表示，AI可解释性方法可以用来发现和诊断模型中的问题。

他们的长期目标是对最先进的模型进行一次类似「脑部扫描」的检查：通过一次检查，就能大概率发现各种问题，包括模型是否倾向于撒谎或欺骗、是否有权力寻求倾向、越狱机制的缺陷、模型整体的认知强项和弱项等等。

这将与模型训练和对齐的各种技术结合使用，就像医生用MRI诊断疾病、开药治疗、再用MRI检查治疗进展一样。

未来，测试和部署最强大模型时，很可能会通过规范化的此类测试来实现。

我们能做什么

博客的结尾，Dario打赌，未来5到10年内就能大幅突破AI可解释性的难题。

但他同时也担心AI本身的进步速度太快，可能连这点时间都没有。

他认为AI公司、研究者、政府和社会可以做以下几件事来推动这个局面。

首先，AI研究者（无论在公司、学术界还是非营利组织）可以通过直接参与来加速可解释性研究。

其次，政府可以推动灵活的法规鼓励可解释性研究及其在前沿AI模型问题上的应用。

第三，Dario大力鼓吹加强芯片出口管制，以确保美国的技术领先。

参考资料：

https://www.anthropic.com/research/exploring-model-welfare

https://techcrunch.com/2025/04/24/anthropic-is-launching-a-new-program-to-study-ai-model-welfare/

https://www.darioamodei.com/post/the-urgency-of-interpretability

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic CEO豪言LLM黑箱5年内必破！研究员爆料：AI有意识概率已达15%

独角兽版图巨变：SpaceX奔万亿 中美差在哪

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

西甲射手榜第2，身价不到姆巴佩1/40

微博之夜抢C风波 杨幂工作室9字讨说法

爱尔眼科董事长旗下7家精神病院骗保

宝马"本命年"关键词：20款新车与"新世代"耐力赛

态度原创

现代轻奢 温馨治愈系

T2总裁回应GTA6争议:给他爱新DLC力证老作热度不减

高考服务处所别错过！3类关键功能解析

弥勒融媒2026年寒假研学记，10天系统教学+实景实战

独角兽版图巨变：SpaceX奔万亿中美差在哪

电动车行业"老三"冲刺上市分股东2亿克扣员工社保3亿

电动车行业"老三"冲刺上市分股东2亿克扣员工社保3亿

微博之夜抢C风波杨幂工作室9字讨说法

现代轻奢温馨治愈系