网易首页 > 网易号 > 正文 申请入驻

Anthropic高管梵蒂冈喊话:AI安全不能光靠实验室自己管

0
分享至

全球7000种语言,AI能翻译的不到200种。但比这更稀缺的是,一家前沿AI公司的创始人公开承认:我们管不了自己。

周一,Anthropic联合创始人、可解释性研究负责人Christopher Olah坐在梵蒂冈主教会议厅,与教皇利奥十四世并肩。场合是教皇首份通谕《Magnifica humanitas》的正式发布。Olah的发言,没有谈技术突破,没有谈产品路线图,而是抛出了一个在AI行业几乎无人公开承认的命题:前沿AI的发展,不能留给前沿AI实验室自己决定。


"每一家前沿AI实验室,"他说,"都运行在一套激励和约束机制之中,而这些机制有时会与'做正确的事'相冲突。"

这句话的分量在于说话人的身份。Olah不是公关负责人,不是政策顾问,而是Anthropic内部被视为"安全可信度"核心资产的技术领袖——他带领的团队正在逆向工程前沿模型内部的真实运作机制。当这样的人说实验室的激励机制会"拉偏"研究人员,市场听见的不是谦逊,是警报。

Olah的论证有两条主线。第一条关于监督。他指出,即便心怀善意的研究者,也困于上述力量之中。由此得出的结论是:来自宗教领袖、政府和公民社会机构的外部审视,不可或缺。第二条关于劳动。他告诉在场听众,AI"非常大规模地"取代人类工作,是"真实存在的可能性";若成真,"支持被取代者将成为历史级别的道德 imperative"。

这是前沿实验室创始人迄今最具体的公开表态:承认其公司内部预测显示,技术可能以快于劳动力市场再吸收的速度颠覆就业。不是"我们会创造更多岗位"的惯常话术,是直面置换风险的罕见坦诚。

Anthropic与梵蒂冈的绑定,在过去两周已成为年度最显眼的AI公司战略 repositioning。公司先以米兰办公室预告关系,继而嵌入天主教会自1891年利奥十三世《Rerum novarum》论述工业资本以来,对技术最具分量的教会声明。选择Olah出面,信号明确:安全叙事需要技术权威背书,而非CEO的外交辞令。

但政治 backdrop 与道德姿态呈镜像反转。整个春季,Anthropic处于与美国政府两场对峙的漩涡中心。四月,五角大楼以公司自有使用限制为由,将其踢出最高机密AI项目,转而与英伟达、微软、AWS签约。特朗普政府随后叫停Mythos模型的扩展——这款自主漏洞发现模型已在全球银行网络安全治理领域引发震荡。Olah与教皇同台的呼吁,在此刻落地,构成对华盛顿的直接回应。

商业时间点的重量同样尖锐。Anthropic正洽谈以900亿美元估值融资300亿美元。Olah没有假装这种张力不存在。"像我们这样的公司,"他对听众说,运行于"强烈的商业、地缘政治和个人压力之下,这些压力可能与……"

发言在此处被截断。但已足够清晰:当一家估值逼近千亿美元的AI公司,由其技术灵魂人物在梵蒂冈承认内部激励可能腐蚀安全判断,并呼吁外部力量介入——这本身就是对"自我监管"叙事的最有力拆解。

Olah的通篇发言未提Mythos,未提五角大楼,未提300亿融资。但每个在场者都知晓语境。这种"不说破"的修辞,反而强化了核心信息的穿透力:即便最"对齐"的实验室,也无法仅凭意愿摆脱结构性张力。

行业观察者的分歧在于解读方向。一方视之为真诚的自我警醒,Anthropic试图以透明换取信任资本;另一方视之为精巧的声誉对冲,用道德高调转移监管对抗的注意力。两种解读共享一个前提:Olah描述的激励冲突是真实的。

可解释性研究在AI安全 discourse 中的位置,为此提供了技术注脚。Olah的团队从事的"逆向工程",本质上是试图打开黑箱——理解大模型为何产生特定输出,而非仅优化输出质量。这项工作的存在本身,即承认当前系统存在"我们不知道它在做什么"的风险。当黑箱开启者本人呼吁外部监督,逻辑链条是自洽的:内部技术努力不足够,需要制度性补充。

教皇通谕的标题《Magnifica humanitas》——"奇妙的人类"——为这场对话提供了神学框架。利奥十四世选择以人类尊严为核心展开对技术时代的回应,Olah的劳动置换论述恰好嵌入这一脉络。但世俗层面的张力在于:若AI真以"历史级别"规模取代工作,谁定义"支持"的边界?教会、政府、还是市场?Olah没有给出答案,他只是将问题从实验室内部抛向公共领域。

这种"问题外包"策略,对Anthropic具有双重效用。短期内,它软化监管对抗中的公众形象;长期看,它将安全责任的成本社会化——若未来发生对齐失败或就业震荡,公司可以援引此番表态,证明其曾主动寻求外部制衡。风险在于,若外部监督机制未能建立,而事故确实发生,今日的梵蒂冈演讲将成为追责时的呈堂证供。

对比同行,Anthropic的差异化路径愈发清晰。OpenAI选择深度绑定微软-美国政府轴心,Gemini团队嵌入谷歌既有权力结构,xAI以马斯克个人网络撬动资源。Anthropic的赌注是:在欧盟监管框架与梵蒂冈道德权威之间,构建"负责任创新"的品牌识别。Olah的出场是这一策略的技术人格化——用研究负责人的身份,为政治姿态增加可信度权重。

但900亿美元估值悬于头顶。融资谈判中的投资者,不会将梵蒂冈演讲计入DCF模型;他们关心的是Mythos被叫停造成的收入缺口,是与五角大楼关系破裂的政府合同损失。Olah描述的"商业压力"与"道德 imperative"之间的张力,在公司层面是真实的财务算术。这种结构性矛盾,正是他呼吁外部介入的底层逻辑:实验室无法自行解决自身嵌入其中的激励系统。

行业层面的 implications 更为深远。若Anthropic的公开自我质疑成为先例,其他实验室将面临跟进压力或质疑沉默的代价。但若此举被解读为差异化营销,可能触发"道德姿态通胀"——各公司竞相展示安全诚意,却无实质机制跟进。Olah呼吁的"宗教领袖、政府和公民社会"三方监督,其具体形态远未清晰;梵蒂冈对话本身是象征性事件,而非制度性建设。

技术社区的反馈呈现分化。对齐研究者普遍欢迎Olah的坦诚,认为其验证了长期以来的内部批评;工程团队则更关注可解释性研究的实际产出——理解模型内部机制的技术进展,是否跟上了公开表态的节奏。这种"说-做"差距的审视,将是Anthropic未来十八个月的关键考验。

回到梵蒂冈现场的具体时刻:一位AI研究者与教皇并肩,谈论激励扭曲与劳动置换,而公司的军事合同正被竞争对手接手、融资估值逼近千亿美元。这幅画面的内在张力,或许正是Olah试图传递的核心信息——技术进步的速度已超越任何单一机构(包括创造它的实验室)的治理能力。承认这一点,是构建有效回应的第一步。

历史参照在此刻浮现。1891年《Rerum novarum》回应的是工业革命对劳工的冲击,催生了现代天主教社会教义。2025年的《Magnifica humanitas》将AI置于同一传统中审视。Olah的介入,使一家商业公司意外地成为这一神学-政治叙事的当代载体。这种角色能否持续,取决于Anthropic是否愿意在具体的商业决策中,持续承受其发言人所描述的"激励冲突"的成本。

市场将在未来数月给出早期答案。300亿美元融资的条款细节、Mythos限制的后续谈判、米兰办公室的实质运营——这些具体动作,将比梵蒂冈演讲更能检验公司的真实优先级。Olah打开了话语空间,但话语的兑现需要资源分配的证明。在AI安全与商业扩张的永恒张力中,外部监督的呼吁既是解脱策略,也是自我设限的承诺。

最终,这场梵蒂冈对话的真正受众或许不在现场。华盛顿的政策制定者、伦敦和布鲁塞尔的监管者、硅谷的投资者——他们各自从中读取不同的信号。Olah的成就在于,用一句话同时向所有这些受众发言,而不牺牲技术可信度。这种多义性,是高级别公共沟通的标志,也是其局限所在:当所有人都认为自己听到了想听的内容,实际的政策共识可能依然遥远。

AI行业的自我监管实验,正在进入新阶段。Olah的表态标志着,即便最坚定的内部倡导者,也开始寻求外部锚定。这种转向是成熟的标志,还是困境的信号,将取决于接下来十八个月内,具体制度安排的推进速度。技术时钟与治理时钟的赛跑,从未如此紧迫。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞尔维亚第一夫人访华第二天!穿职业装与小朋友互动,母爱感满满

塞尔维亚第一夫人访华第二天!穿职业装与小朋友互动,母爱感满满

八八尚语
2026-05-26 09:56:53
周鸿祎评马斯克“十年后人类不开车”预言:重点不是驾照,而是AI要接管物理世界

周鸿祎评马斯克“十年后人类不开车”预言:重点不是驾照,而是AI要接管物理世界

TechWeb
2026-05-25 10:00:50
“厂花”逆天了!一组跨越31年的闺蜜合影登上热搜,让人赞不绝口

“厂花”逆天了!一组跨越31年的闺蜜合影登上热搜,让人赞不绝口

火山詩话
2026-05-24 16:45:58
终于知道苹果直营店的员工每天都很有活力的原因了,网友:门槛高

终于知道苹果直营店的员工每天都很有活力的原因了,网友:门槛高

另子维爱读史
2026-05-23 08:00:45
周琦:看骑士打球就像看首钢比赛,都是俩人单打其他人看戏

周琦:看骑士打球就像看首钢比赛,都是俩人单打其他人看戏

懂球帝
2026-05-26 11:27:30
反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

火山詩话
2026-05-25 07:42:09
血亏!曼联 8600 万回购格林伍德!当初亲手赶走,现在跪着求回来

血亏!曼联 8600 万回购格林伍德!当初亲手赶走,现在跪着求回来

奶盖熊本熊
2026-05-26 04:28:06
16岁放弃外籍入中国籍,娶上海老师生一女,24岁帮上海男篮进决赛

16岁放弃外籍入中国籍,娶上海老师生一女,24岁帮上海男篮进决赛

鲸探所长
2026-05-25 14:39:10
东北超一夜封神!赵大牛:别再叫我赵本山儿子,我是东北新话事人

东北超一夜封神!赵大牛:别再叫我赵本山儿子,我是东北新话事人

TVB的四小花
2026-05-26 02:06:56
广东住户凌晨被狂响的门铃吓坏,看监控发现竟是走失的小猫“求助”…

广东住户凌晨被狂响的门铃吓坏,看监控发现竟是走失的小猫“求助”…

广东活动
2026-05-26 12:16:42
看了韩国人疯抢法拉利,我才明白:中国这波AI红利,全让他们吃了

看了韩国人疯抢法拉利,我才明白:中国这波AI红利,全让他们吃了

大佬灼见
2026-05-25 14:56:46
两岸大局已定,大陆环台军演升级,郑丽文献贺词,一语激起千层浪

两岸大局已定,大陆环台军演升级,郑丽文献贺词,一语激起千层浪

理想闲谈
2026-05-26 09:53:49
自家名宿在挖苦对家名宿在力挺,亨利:请转告B费我太爱他了

自家名宿在挖苦对家名宿在力挺,亨利:请转告B费我太爱他了

懂球帝
2026-05-26 11:48:25
许多网友晒猫被古天乐评论,以为只是网名,结果…是本人?!

许多网友晒猫被古天乐评论,以为只是网名,结果…是本人?!

爱宠物
2026-05-25 22:32:44
黄仁勋点名成龙演自己!经典代言魔咒再现,真要出事了?

黄仁勋点名成龙演自己!经典代言魔咒再现,真要出事了?

雷科技
2026-05-25 22:52:02
从50人缩到2人!网红车商集体退场,二手车寒冬谁还在硬撑!

从50人缩到2人!网红车商集体退场,二手车寒冬谁还在硬撑!

沙雕小琳琳
2026-05-26 11:54:15
布莱顿官方:日本前锋三笘薰已成功接受了腿筋手术

布莱顿官方:日本前锋三笘薰已成功接受了腿筋手术

懂球帝
2026-05-26 06:42:24
网飞新剧登顶全球前三,92%好评神似《火线》

网飞新剧登顶全球前三,92%好评神似《火线》

影视情报室
2026-05-25 00:41:29
一顿“农村简陋火锅”,炸出城市巨婴的丑态:内心穷才是真可怕

一顿“农村简陋火锅”,炸出城市巨婴的丑态:内心穷才是真可怕

妍妍教育日记
2026-05-25 18:36:13
补偿金216696元!网友上海入职5年因新领导空降被裁,欲哭无泪

补偿金216696元!网友上海入职5年因新领导空降被裁,欲哭无泪

火山詩话
2026-05-26 06:48:57
2026-05-26 13:07:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
3780文章数 45关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

男子称沃尔沃买了不到3年见了7次"小乌龟":不敢开了

头条要闻

男子称沃尔沃买了不到3年见了7次"小乌龟":不敢开了

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

景甜被曝停工失联 富商索要2亿和解费

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

时尚
亲子
游戏
教育
公开课

彩色衬衫太适合夏天了,高级又气质

亲子要闻

40岁高龄二胎,5年漫长备孕路,今天正式开篇复盘

韩国黑暗风成人新游来了!女角太性感、试玩版将推出

教育要闻

中小学生2026年入学将迎来“大调整”!教育部新规,9月1日将实行

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版