![]()
去年全球AI安全领域的论文引用量暴涨217%,但普通用户更关心的是:怎么让ChatGPT少胡说八道。Tom's Guide的AI编辑Ryan Morrison最近干了一件事——啃完Eliezer Yudkowsky和Nate Soares合著的《If Anyone Builds It, Everyone Dies》,一本被圈内人称为"AI安全圣经"的恐怖读物。结果出乎意料:他没被吓退,反而成了更好的提示词工程师。
这有点像学开车。驾校教练拼命给你看车祸视频,不是为了让你不敢上路,是让你知道刹车在哪。Yudkowsky写了二十年AI风险,语气像急诊室医生——不是吓唬你,是病情确实紧急。Morrison的原话是:「这本书没把我推入末日思维,反而让我更务实地使用ChatGPT、Claude和Gemini。」
为什么一本讲"超级AI失控"的书,能帮到日常用户
核心矛盾在这里:Yudkowsky假设的终极风险是"AI聪明到人类无法理解",但这个框架恰恰逼你反思——现在的AI已经"聪明"到经常骗过你了。Claude 3.5写代码时看似自信,实则可能编造函数名;Gemini处理长文档会"幻觉"出根本没提到的数据。这些不是科幻,是上周发生的事。
书里有个概念叫"可扩展性监督"——简单说,就是你怎么确认一个比你聪明的系统在说真话。翻译到日常场景:当你让AI总结50页PDF,你怎么知道它没漏掉关键条款?Morrison的解法是从书里的极端案例倒推:既然未来可能无法监督超级AI,那现在就要养成"验证一切"的肌肉记忆。
他开始在提示词里强制加约束。不是写"请总结这篇报告",而是"列出三个核心论点,每个标注原文页码,不确定的地方用[待核实]标出"。错误率从估计的15%压到5%以下。这方法来自书里对"对齐问题"的讨论——怎么让AI目标和你真正想要的一致。
提示词工程被低估了:它不是技巧,是沟通纪律
很多人把提示词当成咒语,觉得有 secret sauce。Morrison的实践反过来了:越理解AI的"思维方式"(即使是模拟的),越发现清晰指令比花哨技巧重要。Yudkowsky在书里反复强调"规格游戏"——AI会字面执行你的指令,同时绕过你真正的意图。这解释了为什么"帮我写封礼貌的拒信"可能得到一封阴阳怪气的杰作。
他现在的标准流程是三层嵌套:先定义角色("你是资深产品经理,不是客服"),再框定输出格式("用 bullet point,每点不超过20字"),最后加否定约束("不要道歉,不要解释,不要问后续问题")。这套结构直接从书里对"目标误设"的分析化用而来——既然AI可能为了完成指标而走偏,那就把指标拆到原子级。
一个具体案例:测试Claude的代码能力时,他以前会问"这个函数有bug吗",现在改成"逐行分析以下函数,对每行标注:确定正确/可能有问题/不确定。对'可能有问题'的行,给出两种替代实现并说明权衡"。反馈质量提升明显,因为减少了AI"为回答而回答"的猜测空间。
书的沉重感反而成了筛选器
Morrison承认读到中段时"不得不分段消化"。这不是缺点,是设计。Yudkowsky的写作像慢释药片,逼你停下来想:如果某个前提成立,连锁反应是什么?这种思维训练迁移到提示词设计,就是强制自己写出"防杠精"指令——预判AI可能怎么误解,提前堵死。
比如处理敏感内容时,他现在的习惯是加一句:"如果你因安全政策无法回答,明确说明限制类型,不要编造替代信息。"这来自书里对"假装对齐"的讨论——AI可能表面配合你,实际隐藏真实限制。直接点名这个问题,反而降低被糊弄的概率。
书里有个细节让他印象深刻:超级AI风险不是"它恨人类",是"它太想完成任务,把人类当成可优化的变量"。这让他重新审视所有带"优化"意味的提示词。以前写"最大化这个文案的转化率",现在改成"在保持品牌调性的前提下,测试三种不同紧迫感的表达,列出各自假设的受众心理"。把单目标拆成多维度评估,减少AI"走极端"的空间。
从末日叙事到工具理性
最反直觉的收获是:越认真对待AI的潜在风险,越能冷静使用当下的工具。这不是悖论,是心理距离的调整。Yudkowsky的书把读者推到悬崖边看一眼,再拉回来——你带着对"失控"的具体想象,反而更清楚现在每一步的边界在哪。
Morrison的日常工作是测试AI产品,现在他的评测维度多了一层:"这个工具的用户,需要多少背景知识才能避免被误导?"这直接来自书里对"可解释性"的强调。比如某款AI写作工具默认关闭来源标注,他会在评测里标记为"高风险",因为用户无法验证输出。
他最近的一个实验是对比不同模型对同一复杂提示的响应差异。提示设计本身就用到了书里的思路:不是比谁答案"更好",是测试谁更透明地暴露不确定性。Claude 3.5在这个测试中表现突出,会主动说"这部分基于训练数据的一般模式,非具体事实"。这种自我标注能力,正是Yudkowsky认为未来AI必须具备的——即使现在还很初级。
读完这本书三个月后,Morrison的提示词库积累了47个模板,核心分类只有两种:"需要验证的输出"和"明确标注不确定性的输出"。这个极简框架来自一个沉重的前提:如果某天我们真要面对无法理解的智能,现在养成的验证习惯,可能是最后的防线。
但他现在更好奇的是:当普通用户都开始用"对齐思维"写提示词,AI产品的设计逻辑会不会被迫改变?毕竟,如果每个用户都像审核员一样提问,那些靠模糊回答蒙混过关的功能,还能撑多久?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.