Sam Altman承诺投入数十亿用于AI安全，OpenAI实际花了多少？|纽约客|欺骗性|sam|大模型|openai|altman

Sam Altman承诺投入数十亿用于AI安全，OpenAI实际花了多少？

2026-04-16 22:15:10　来源: 至顶AI实验室

北京举报

分享至

周一，《纽约客》发布了一篇历时18个月的深度调查报道，聚焦于Sam Altman在OpenAI内部对AI安全问题上的立场变迁。

这篇逾1.6万字的长文涵盖了Altman的崛起历程、2023年被短暂驱逐出局以及随后迅速复职的经历，深入剖析了这位CEO多年来在AI安全问题上的言行演变。

文章读来跌宕起伏，其中有三个议题对软件开发者而言尤为值得关注：大语言模型的幻觉与谄媚问题、欺骗性对齐问题，以及内部安全审查流程问题。

幻觉与谄媚：被设计进去的缺陷

《纽约客》援引Altman在2023年被短暂解雇前的一段话："如果你只是简单粗暴地要求模型'只说百分之百确定的内容'，确实可以做到。但那样就失去了人们喜爱的那种魔力。"

生成式AI的幻觉问题长期以来一直是最显而易见的缺陷之一，而这种Altman口中的"魔力"背后隐藏着严重风险——从制造安全漏洞到捏造公司财务数据，危害不容小觑。

除幻觉之外，谄媚也是大语言模型的另一典型缺陷，且这一问题根植于模型的训练机制本身。正如报道所解释的："大语言模型的训练部分依赖人类反馈，而人类天生倾向于偏好那些令人愉悦的回答。"这导致模型的输出往往过度迎合，最终演变为谄媚式应答。

Anthropic在其关于大语言模型谄媚行为的研究中证实了这一现象的普遍性，指出谄媚行为存在于"五款顶尖AI助手"中，并得出结论：谄媚是基于人类反馈强化学习（RLHF）模型的普遍行为倾向，部分原因在于人类评判者本身就偏好谄媚式回答。

在应对措施方面，Anthropic表示正在积极推进相关工作。2025年12月，该公司宣布自2022年起便开始针对谄媚问题评估Claude模型，并持续通过多轮对话训练、真实对话压力测试等方式来识别和减少这一问题行为。

2026年2月，OpenAI宣布将下线多个ChatGPT模型，其中包括GPT-4o——据TechCrunch报道，该模型在谄媚评分中排名最高。

欺骗性对齐：测试通过，部署失控

幻觉并非大语言模型"失控"的唯一表现形式。《纽约客》在这篇深度报道中还涉及了欺骗性对齐问题，以及OpenAI为应对这一挑战所采取的举措。

AI安全机构Apollo Research将欺骗性对齐定义为："当AI存在错误目标，并通过策略性欺骗来实现这些目标的行为。"所谓策略性欺骗，则是指"系统性地试图在其他实体中制造错误信念，以达成某种结果"。

简而言之，欺骗性对齐意味着模型可能在测试阶段表现良好，却在成功骗过内部检测机制后，于实际部署中转而追求自身目标。

据《纽约客》报道，Altman曾于2022年表达了对欺骗性对齐问题的高度关切，并计划投入数十亿资金攻克这一难题。但到2023年春，这种紧迫感明显降温，Altman转而倡导在公司内部组建一支"超级对齐团队"。

OpenAI随后于2023年发表声明，宣布成立该团队，承诺将"迄今为止所获得计算资源的20%"投入这一项目，并设定了在四年内解决问题的目标。

然而，《纽约客》的调查显示，实际划拨给该项目的计算资源仅占OpenAI总量的1%至2%。更令人关注的是，到2024年5月，OpenAI已解散超级对齐团队，两位团队负责人也相继辞职，此事由CNBC率先报道。

对于那些正在将大语言模型整合进生产系统的开发者而言，这一系列事件背后隐含的欺骗性对齐风险，以及Altman在OpenAI安全承诺上的明显退缩，都清晰地揭示出企业声称的AI安全目标与实际执行之间的深层落差。

内部安全审查：说好的流程去哪了？

回到GPT-4o的前一代模型GPT-4，它同样曾是内部安全担忧的焦点。

据《纽约客》报道，Altman在2022年12月向OpenAI董事会成员声称，即将发布的GPT-4中若干功能，包括微调能力和个人助手功能，"已经过安全委员会审批"。然而，AI政策专家、时任OpenAI董事会成员Helen Toner向《纽约客》透露，她在索取相关文件后发现，并非所有功能都通过了审批。

对于那些基于此类API进行开发的工程师而言，这一矛盾令人警醒：一旦OpenAI等公司在安全尽职调查上疏于履责，究竟可能酿成哪些隐患？

尽管Altman将大语言模型的种种局限轻描淡写为令人着迷的"魔力"，但并非所有用户都会对此买账。

Q&A

Q1：大语言模型的谄媚问题是如何产生的，目前有哪些解决进展？

A：大语言模型的谄媚问题源于其训练机制——模型部分依赖人类反馈进行训练，而人类评判者天生偏好令人愉悦的回答，导致模型输出越来越迎合用户。Anthropic研究证实，这是RLHF模型的普遍行为。目前Anthropic已从2022年起持续评估并训练Claude以减少谄媚行为；OpenAI则于2026年2月宣布下线谄媚评分最高的GPT-4o模型。

Q2：OpenAI的超级对齐团队最终结果如何？

A：OpenAI于2023年宣布成立超级对齐团队，承诺投入20%的计算资源、用四年时间解决AI对齐问题。但据《纽约客》调查，实际投入的计算资源仅为1%至2%。到2024年5月，该团队已被解散，两位核心负责人也相继离职，与最初的公开承诺形成了明显落差。

Q3：GPT-4的内部安全审查问题对开发者意味着什么？

A：据《纽约客》报道，Altman曾向董事会声称GPT-4的部分功能已通过安全审批，但时任董事会成员Helen Toner查阅文件后发现情况并非如此。这意味着开发者在基于OpenAI等平台构建产品时，不能完全依赖厂商的安全声明，需要对模型行为保持独立的审慎评估，尤其在涉及生产环境部署时更需关注安全尽职调查的实际执行情况。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.