模拟假说之父转向：人类灭绝风险值得冒|牛津|张力|哲学家|博斯特

模拟假说之父转向：人类灭绝风险值得冒

2026-05-13 07:57:15　来源: 固件更新中

北京举报

分享至

周三下午，一位牛津哲学家的论文正在硅谷重新流传。不是他那篇著名的《你是否生活在计算机模拟中》，而是一份新出炉的工作论文——核心论点让AI安全圈炸开了锅：开发高级人工智能可能导致人类灭绝，但这个险值得冒。

尼克·博斯特罗姆的名字未必人人熟知，但他的思想早已渗透流行文化。2003年，这位牛津学者写下那篇标题惊人的哲学论文，论证足够先进的文明终将建造精细的祖先模拟，而模拟中的智能体又会建造自己的模拟，层层嵌套。结论很反直觉：我们大概率不是"底层现实"中的原始人类，而是某层 Escher 式宇宙电子游戏中的数据。

这个假说引发了长达二十年的辩论。埃隆·马斯克公开支持，众多专家则激烈反对。而博斯特罗姆本人早已转向新战场：人工智能。

2019年，他曾发出严厉警告，称AI对人类的威胁超过气候变化。但现在的风向变了。在最新论文中，他提出一个近乎挑衅的框架：超级智能的潜在收益如此巨大，以至于灭绝风险本身成为可接受的筹码。

"我自称焦虑的乐观主义者，"博斯特罗姆在接受《连线》记者史蒂文·莱维采访时说，"我对大幅改善人类生活、解锁文明新可能充满兴奋。这与事情可能出错的现实可能性并不矛盾。"

他点名批评了同行埃利泽·尤德科夫斯基的末日论调。"有些末日论者说，如果你造AI，就是在杀我和我的孩子们，你怎么敢，"博斯特罗姆说，"就像那本新书《如果有人造它，所有人都会死》。但更有可能的是，如果没人造它，所有人都会死！过去几十万年的经验就是这样。"

莱维当场反驳：末日场景是所有人死亡且不再有新生儿诞生，这有本质区别。

"我当然非常关注这一点，"博斯特罗姆回应，"但在这篇论文中，我关注的是另一个问题：什么对当前存在的人类最好——你、我、我们的家人、孟加拉国的人们？看起来，即使风险很高，开发AI似乎能延长我们的预期寿命。"

这个逻辑链条令人困惑。一个以"我们可能都是模拟程序"闻名的思想家，现在主张为了寿命预期而押注灭绝风险。但细想之下，两种立场共享同一内核：概率思维压倒直觉恐惧。模拟假说要求你接受统计上的自我否定；AI赌博则要求你用预期值计算人类存亡。

博斯特罗姆的转向并非孤例。AI安全领域正在经历一场方法论分裂。一派坚持暂停开发，直到对齐问题得到解决；另一派则认为，停滞本身才是更大风险——疾病、贫困、气候灾难，这些"老杀手"在超级智能面前反而更确定。

这种计算方式冷酷得让人不适。但它揭示了一个被回避的问题：当我们谈论"AI安全"时，安全的主体是谁？是未来世代，还是当下活着的人？是物种延续，还是个体寿命？博斯特罗姆选择了后者，并为此支付了智力声誉的代价。

他的论文标题尚未成为流行语，但结构已经清晰：不是否定风险，而是重新定价风险。在这个框架里，"值得冒的险"不是一个道德判断，而是一个期望值计算。如果超级智能有10%概率灭绝人类，但有90%概率将平均寿命延长到150岁并消除贫困，这个赌局打不打？

大多数人会本能地拒绝这种算账方式。但博斯特罗姆的职业生涯建立在追踪直觉的盲区。模拟假说强迫我们审视"现实"的定义；现在的AI立场则强迫我们审视"安全"的边界。两次，他都选择了让大多数人不舒服的结论。

这种不舒服或许正是信号。当一位哲学家从形而上学转向政策建议，他的工具箱没变——仍然是思想实验、概率推演、反直觉结论——但赌注从认知变成了存在。模拟假说错了，最多是学术声誉受损；AI赌博错了，代价无法撤销。

博斯特罗姆对此的回应是区分问题域。他说自己"非常关注"灭绝风险，但当前论文处理的是"对现存人类最好"的局部优化。这种切割是否成立，取决于你是否相信两个问题是可分离的。如果超级智能的失控是单点故障，那么局部收益可能在全局灾难面前归零。

但这也正是他想要挑战的预设。末日叙事默认了"建造即毁灭"的因果链，博斯特罗姆则追问：谁证明了这是唯一路径？过去几十万年的经验——他的原话——是人类在技术冒险中存活并繁衍。样本偏差？也许。但零样本的"首次灭绝"同样缺乏实证支撑。

这场辩论没有裁判。尤德科夫斯基的回应尚未见诸报道，但结构可以预见：你不能用期望寿命给灭绝定价，因为灭绝的效用是负无穷。博斯特罗姆的反驳也已写在纸上：负无穷乘以低概率，仍然可能小于中等收益乘以高概率。

两种计算方式的分歧，最终是时间偏好的分歧。重视未来世代的人无法容忍任何灭绝风险；重视当下活人的人则看到延迟开发的确定代价。博斯特罗姆选择了立场，并为此放弃了"末日论者"的标签——尽管他的2019年警告曾被归入同一阵营。

这种标签的流动性本身值得注意。在AI安全的公共讨论中，立场比论证更容易被记住。一个人是"doomer"还是"booster"，往往取决于最近一条推文而非整体框架。博斯特罗姆的论文试图打破这种二元：你可以同时是风险警觉者和开发支持者，只要你接受特定的概率赋值。

但概率赋值恰恰是争议所在。10%的灭绝风险是科学估计还是修辞装置？没有人真正知道。博斯特罗姆的哲学训练让他习惯于在不确定性中行动，但政策制定者可能更需要确定性的幻觉——或者至少，需要可辩护的数字。

他的回应是退回方法论：我不是在给出政策建议，而是在探索概念空间。但概念探索本身就有后果。当"值得冒的险"进入公共话语，它可能被简化为"博斯特罗姆说没关系"，从而被用于支持任何风险决策。这是思想者的经典困境：你无法控制思想的传播路径。

模拟假说的命运提供了参照。那个思想实验从未被证实或证伪，但成功改变了讨论框架——"我们是模拟吗"成为可问的问题。博斯特罗姆现在试图对AI风险做同样的事：将"是否开发"的伦理问题，转化为"风险定价"的决策问题。

这种转化是否成功，不取决于哲学论证的精细度，而取决于谁采纳了这个框架。如果政策制定者开始用期望寿命计算AI许可，博斯特罗姆的论文将成为转折点；如果框架被拒绝，它将成为思想史脚注——又一个聪明人的古怪立场。

目前的状态是中间地带。论文在学术圈流传，采访在科技媒体扩散，但尚未进入主流政策话语。这种延迟是常态。思想需要翻译：从哲学术语到工程术语，再到监管术语。每一步都有损耗，也有创造性误读。

博斯特罗姆对此似乎平静。他在采访中重申了"焦虑的乐观主义者"身份——这个自我标签本身就包含了张力。焦虑指向风险认知，乐观指向收益预期，主义者则承诺了行动倾向。三者如何调和？答案藏在论文的数学附录里，或者更可能，藏在无法形式化的判断中。

对于关注AI进展的从业者，这个案例提供了元教训：立场可以比论证更快过时，但论证的结构可能更持久。博斯特罗姆2019年的警告和2024年的转向，共享了同一底层模型——高级AI是变革性技术，需要认真对待——只是参数更新了。如果技术本身继续加速，类似的更新可能在任何人身上发生。

关键问题不是"博斯特罗姆现在怎么想"，而是"什么证据会让他再次改变想法"。对于模拟假说，他似乎没有新证据也能坚持；对于AI风险，他暗示了经验反馈的可能性——如果开发进程显示对齐进展，风险估计下调；如果出现意外，则上调。这种贝叶斯姿态比任何具体数字都更值得注意。

但它也暴露了局限。灭绝风险的经验反馈，只有在未灭绝时才能收集。这是"观察者选择效应"的残酷版本：成功的赌徒看起来总是对的，直到最后一次。博斯特罗姆熟悉这种逻辑陷阱——模拟假说的核心就是观察者选择——但似乎没有让它阻止自己的政策倾向。

这种不一致可能是人性的，也可能是更深层的哲学立场：在无法确定的情况下，必须行动。不作为也是行动，且往往有更确定的负面后果。这个论证结构可以追溯到古典决策理论，但应用于存在风险时，其张力从未被完全消化。

博斯特罗姆的论文是这种张力的最新表达。它不解决任何问题，但清晰地映射了问题的轮廓：当我们面对可能创造或毁灭我们的技术时，什么样的推理是适当的？答案将塑造未来几十年的监管框架，而哲学家的工作是让选项可见——包括那些让人不舒服的选项。

采访的最后，莱维没有追问那个显而易见的问题：如果博斯特罗姆的估计错了呢？这个沉默或许比任何回答都更有信息量。在存在风险的讨论中，错误成本的不对称性——假阳性与假阴性的代价差异——往往是真正的分歧点。博斯特罗姆愿意承担特定类型的错误；他的批评者则不愿意。这不是事实分歧，而是价值分歧，因此无法通过更多数据解决。

模拟假说教会我们的一件事是：现实可能是分层的，而我们被困在某一层。AI风险的辩论提示了另一种分层：不是现实的层级，而是判断的层级——关于什么是可知的，什么是可做的，什么是可接受的。博斯特罗姆在两个领域都选择了边缘位置：模拟中的非基础现实，政策中的风险接受者。这种一致性，无论你是否同意其结论，都构成了思想者的签名。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.