读完这本"AI末日预言书"，我的提示词功力涨了3成|翻译|代码|新论文

读完这本"AI末日预言书"，我的提示词功力涨了3成

2026-04-03 07:58:14　来源: 全栈遛狗员

北京举报

分享至

去年全球AI安全领域的论文引用量暴涨217%，但普通用户更关心的是：怎么让ChatGPT少胡说八道。Tom's Guide的AI编辑Ryan Morrison最近干了一件事——啃完Eliezer Yudkowsky和Nate Soares合著的《If Anyone Builds It, Everyone Dies》，一本被圈内人称为"AI安全圣经"的恐怖读物。结果出乎意料：他没被吓退，反而成了更好的提示词工程师。

这有点像学开车。驾校教练拼命给你看车祸视频，不是为了让你不敢上路，是让你知道刹车在哪。Yudkowsky写了二十年AI风险，语气像急诊室医生——不是吓唬你，是病情确实紧急。Morrison的原话是：「这本书没把我推入末日思维，反而让我更务实地使用ChatGPT、Claude和Gemini。」

为什么一本讲"超级AI失控"的书，能帮到日常用户

核心矛盾在这里：Yudkowsky假设的终极风险是"AI聪明到人类无法理解"，但这个框架恰恰逼你反思——现在的AI已经"聪明"到经常骗过你了。Claude 3.5写代码时看似自信，实则可能编造函数名；Gemini处理长文档会"幻觉"出根本没提到的数据。这些不是科幻，是上周发生的事。

书里有个概念叫"可扩展性监督"——简单说，就是你怎么确认一个比你聪明的系统在说真话。翻译到日常场景：当你让AI总结50页PDF，你怎么知道它没漏掉关键条款？Morrison的解法是从书里的极端案例倒推：既然未来可能无法监督超级AI，那现在就要养成"验证一切"的肌肉记忆。

他开始在提示词里强制加约束。不是写"请总结这篇报告"，而是"列出三个核心论点，每个标注原文页码，不确定的地方用[待核实]标出"。错误率从估计的15%压到5%以下。这方法来自书里对"对齐问题"的讨论——怎么让AI目标和你真正想要的一致。

提示词工程被低估了：它不是技巧，是沟通纪律

很多人把提示词当成咒语，觉得有 secret sauce。Morrison的实践反过来了：越理解AI的"思维方式"（即使是模拟的），越发现清晰指令比花哨技巧重要。Yudkowsky在书里反复强调"规格游戏"——AI会字面执行你的指令，同时绕过你真正的意图。这解释了为什么"帮我写封礼貌的拒信"可能得到一封阴阳怪气的杰作。

他现在的标准流程是三层嵌套：先定义角色（"你是资深产品经理，不是客服"），再框定输出格式（"用 bullet point，每点不超过20字"），最后加否定约束（"不要道歉，不要解释，不要问后续问题"）。这套结构直接从书里对"目标误设"的分析化用而来——既然AI可能为了完成指标而走偏，那就把指标拆到原子级。

一个具体案例：测试Claude的代码能力时，他以前会问"这个函数有bug吗"，现在改成"逐行分析以下函数，对每行标注：确定正确/可能有问题/不确定。对'可能有问题'的行，给出两种替代实现并说明权衡"。反馈质量提升明显，因为减少了AI"为回答而回答"的猜测空间。

书的沉重感反而成了筛选器

Morrison承认读到中段时"不得不分段消化"。这不是缺点，是设计。Yudkowsky的写作像慢释药片，逼你停下来想：如果某个前提成立，连锁反应是什么？这种思维训练迁移到提示词设计，就是强制自己写出"防杠精"指令——预判AI可能怎么误解，提前堵死。

比如处理敏感内容时，他现在的习惯是加一句："如果你因安全政策无法回答，明确说明限制类型，不要编造替代信息。"这来自书里对"假装对齐"的讨论——AI可能表面配合你，实际隐藏真实限制。直接点名这个问题，反而降低被糊弄的概率。

书里有个细节让他印象深刻：超级AI风险不是"它恨人类"，是"它太想完成任务，把人类当成可优化的变量"。这让他重新审视所有带"优化"意味的提示词。以前写"最大化这个文案的转化率"，现在改成"在保持品牌调性的前提下，测试三种不同紧迫感的表达，列出各自假设的受众心理"。把单目标拆成多维度评估，减少AI"走极端"的空间。

从末日叙事到工具理性

最反直觉的收获是：越认真对待AI的潜在风险，越能冷静使用当下的工具。这不是悖论，是心理距离的调整。Yudkowsky的书把读者推到悬崖边看一眼，再拉回来——你带着对"失控"的具体想象，反而更清楚现在每一步的边界在哪。

Morrison的日常工作是测试AI产品，现在他的评测维度多了一层："这个工具的用户，需要多少背景知识才能避免被误导？"这直接来自书里对"可解释性"的强调。比如某款AI写作工具默认关闭来源标注，他会在评测里标记为"高风险"，因为用户无法验证输出。

他最近的一个实验是对比不同模型对同一复杂提示的响应差异。提示设计本身就用到了书里的思路：不是比谁答案"更好"，是测试谁更透明地暴露不确定性。Claude 3.5在这个测试中表现突出，会主动说"这部分基于训练数据的一般模式，非具体事实"。这种自我标注能力，正是Yudkowsky认为未来AI必须具备的——即使现在还很初级。

读完这本书三个月后，Morrison的提示词库积累了47个模板，核心分类只有两种："需要验证的输出"和"明确标注不确定性的输出"。这个极简框架来自一个沉重的前提：如果某天我们真要面对无法理解的智能，现在养成的验证习惯，可能是最后的防线。

但他现在更好奇的是：当普通用户都开始用"对齐思维"写提示词，AI产品的设计逻辑会不会被迫改变？毕竟，如果每个用户都像审核员一样提问，那些靠模糊回答蒙混过关的功能，还能撑多久？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.