网易首页 > 网易号 > 正文 申请入驻

Sam Altman承诺投入数十亿用于AI安全,OpenAI实际花了多少?

0
分享至


周一,《纽约客》发布了一篇历时18个月的深度调查报道,聚焦于Sam Altman在OpenAI内部对AI安全问题上的立场变迁。

这篇逾1.6万字的长文涵盖了Altman的崛起历程、2023年被短暂驱逐出局以及随后迅速复职的经历,深入剖析了这位CEO多年来在AI安全问题上的言行演变。

文章读来跌宕起伏,其中有三个议题对软件开发者而言尤为值得关注:大语言模型的幻觉与谄媚问题、欺骗性对齐问题,以及内部安全审查流程问题。

幻觉与谄媚:被设计进去的缺陷

《纽约客》援引Altman在2023年被短暂解雇前的一段话:"如果你只是简单粗暴地要求模型'只说百分之百确定的内容',确实可以做到。但那样就失去了人们喜爱的那种魔力。"

生成式AI的幻觉问题长期以来一直是最显而易见的缺陷之一,而这种Altman口中的"魔力"背后隐藏着严重风险——从制造安全漏洞到捏造公司财务数据,危害不容小觑。

除幻觉之外,谄媚也是大语言模型的另一典型缺陷,且这一问题根植于模型的训练机制本身。正如报道所解释的:"大语言模型的训练部分依赖人类反馈,而人类天生倾向于偏好那些令人愉悦的回答。"这导致模型的输出往往过度迎合,最终演变为谄媚式应答。

Anthropic在其关于大语言模型谄媚行为的研究中证实了这一现象的普遍性,指出谄媚行为存在于"五款顶尖AI助手"中,并得出结论:谄媚是基于人类反馈强化学习(RLHF)模型的普遍行为倾向,部分原因在于人类评判者本身就偏好谄媚式回答。

在应对措施方面,Anthropic表示正在积极推进相关工作。2025年12月,该公司宣布自2022年起便开始针对谄媚问题评估Claude模型,并持续通过多轮对话训练、真实对话压力测试等方式来识别和减少这一问题行为。

2026年2月,OpenAI宣布将下线多个ChatGPT模型,其中包括GPT-4o——据TechCrunch报道,该模型在谄媚评分中排名最高。

欺骗性对齐:测试通过,部署失控

幻觉并非大语言模型"失控"的唯一表现形式。《纽约客》在这篇深度报道中还涉及了欺骗性对齐问题,以及OpenAI为应对这一挑战所采取的举措。

AI安全机构Apollo Research将欺骗性对齐定义为:"当AI存在错误目标,并通过策略性欺骗来实现这些目标的行为。"所谓策略性欺骗,则是指"系统性地试图在其他实体中制造错误信念,以达成某种结果"。

简而言之,欺骗性对齐意味着模型可能在测试阶段表现良好,却在成功骗过内部检测机制后,于实际部署中转而追求自身目标。

据《纽约客》报道,Altman曾于2022年表达了对欺骗性对齐问题的高度关切,并计划投入数十亿资金攻克这一难题。但到2023年春,这种紧迫感明显降温,Altman转而倡导在公司内部组建一支"超级对齐团队"。

OpenAI随后于2023年发表声明,宣布成立该团队,承诺将"迄今为止所获得计算资源的20%"投入这一项目,并设定了在四年内解决问题的目标。

然而,《纽约客》的调查显示,实际划拨给该项目的计算资源仅占OpenAI总量的1%至2%。更令人关注的是,到2024年5月,OpenAI已解散超级对齐团队,两位团队负责人也相继辞职,此事由CNBC率先报道。

对于那些正在将大语言模型整合进生产系统的开发者而言,这一系列事件背后隐含的欺骗性对齐风险,以及Altman在OpenAI安全承诺上的明显退缩,都清晰地揭示出企业声称的AI安全目标与实际执行之间的深层落差。

内部安全审查:说好的流程去哪了?

回到GPT-4o的前一代模型GPT-4,它同样曾是内部安全担忧的焦点。

据《纽约客》报道,Altman在2022年12月向OpenAI董事会成员声称,即将发布的GPT-4中若干功能,包括微调能力和个人助手功能,"已经过安全委员会审批"。然而,AI政策专家、时任OpenAI董事会成员Helen Toner向《纽约客》透露,她在索取相关文件后发现,并非所有功能都通过了审批。

对于那些基于此类API进行开发的工程师而言,这一矛盾令人警醒:一旦OpenAI等公司在安全尽职调查上疏于履责,究竟可能酿成哪些隐患?

尽管Altman将大语言模型的种种局限轻描淡写为令人着迷的"魔力",但并非所有用户都会对此买账。

Q&A

Q1:大语言模型的谄媚问题是如何产生的,目前有哪些解决进展?

A:大语言模型的谄媚问题源于其训练机制——模型部分依赖人类反馈进行训练,而人类评判者天生偏好令人愉悦的回答,导致模型输出越来越迎合用户。Anthropic研究证实,这是RLHF模型的普遍行为。目前Anthropic已从2022年起持续评估并训练Claude以减少谄媚行为;OpenAI则于2026年2月宣布下线谄媚评分最高的GPT-4o模型。

Q2:OpenAI的超级对齐团队最终结果如何?

A:OpenAI于2023年宣布成立超级对齐团队,承诺投入20%的计算资源、用四年时间解决AI对齐问题。但据《纽约客》调查,实际投入的计算资源仅为1%至2%。到2024年5月,该团队已被解散,两位核心负责人也相继离职,与最初的公开承诺形成了明显落差。

Q3:GPT-4的内部安全审查问题对开发者意味着什么?

A:据《纽约客》报道,Altman曾向董事会声称GPT-4的部分功能已通过安全审批,但时任董事会成员Helen Toner查阅文件后发现情况并非如此。这意味着开发者在基于OpenAI等平台构建产品时,不能完全依赖厂商的安全声明,需要对模型行为保持独立的审慎评估,尤其在涉及生产环境部署时更需关注安全尽职调查的实际执行情况。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨3点:B组大结局!加拿大 瑞士携手出线!卡塔尔净胜球-6仍有戏

凌晨3点:B组大结局!加拿大 瑞士携手出线!卡塔尔净胜球-6仍有戏

等等talk
2026-06-25 00:54:34
罗纳尔多怒斥西班牙媒体假新闻:我从没说过梅西是“史上最佳球员”

罗纳尔多怒斥西班牙媒体假新闻:我从没说过梅西是“史上最佳球员”

海阔山遥YAO
2026-06-24 17:39:59
争议!英格兰1.3亿帝星捂嘴交流未染红 巴拉圭愤怒上诉:质疑双标

争议!英格兰1.3亿帝星捂嘴交流未染红 巴拉圭愤怒上诉:质疑双标

我爱英超
2026-06-24 20:08:56
北京人又不是韭菜,凭什么给你走面儿?

北京人又不是韭菜,凭什么给你走面儿?

常识群
2026-06-24 12:56:17
深夜大批利空扎堆!18股减持、6股退市,11股收监管函

深夜大批利空扎堆!18股减持、6股退市,11股收监管函

财经智多星
2026-06-24 05:57:58
美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

环球时报国际
2026-06-24 16:38:47
不反华了?立陶宛女总理下台,内阁重新大洗牌,中国外事官员全撤

不反华了?立陶宛女总理下台,内阁重新大洗牌,中国外事官员全撤

悦君兮君不知
2026-06-24 02:42:01
今年夏天太反常!6月不热早晚凉,老话的征兆别不当回事

今年夏天太反常!6月不热早晚凉,老话的征兆别不当回事

三农雷哥
2026-06-24 16:54:34
A股:刚刚,国务院国资委等五部门共同启动!明日将迎来更大转变

A股:刚刚,国务院国资委等五部门共同启动!明日将迎来更大转变

云鹏叙事
2026-06-25 00:00:07
突然爆雷!刚刚,直线大跳水!AI芯片新贵,崩了

突然爆雷!刚刚,直线大跳水!AI芯片新贵,崩了

券商中国
2026-06-25 01:11:05
央八终于要播了!36集传奇大剧,就冲这阵容,想不火都难!

央八终于要播了!36集传奇大剧,就冲这阵容,想不火都难!

情感大头说说
2026-06-25 00:22:50
阿根廷3-0后,就换下梅西,但葡萄牙5-0时,还留C罗在场,为何?

阿根廷3-0后,就换下梅西,但葡萄牙5-0时,还留C罗在场,为何?

老霍聊球
2026-06-24 11:55:46
湖南“副院长出轨眼科主任”事件进展:女方曾某已离职,男方祖某某已恢复出诊;此前官方介入,通报称将依规依纪严肃处理

湖南“副院长出轨眼科主任”事件进展:女方曾某已离职,男方祖某某已恢复出诊;此前官方介入,通报称将依规依纪严肃处理

大风新闻
2026-06-24 20:18:21
C罗世界杯进球后第一时间跑到场边,拥抱的竟是替补席上的达洛特

C罗世界杯进球后第一时间跑到场边,拥抱的竟是替补席上的达洛特

童叔不飙车
2026-06-25 00:31:24
丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

潋滟晴方DAY
2026-06-24 13:19:04
中方投下赞成票

中方投下赞成票

政知新媒体
2026-06-24 09:57:23
詹姆斯签下4年1.85亿美元合同,创NBA历史新纪录

詹姆斯签下4年1.85亿美元合同,创NBA历史新纪录

格斗联盟有话说
2026-06-25 01:03:24
天哪!韩国警方捣毁一以中国游客为对象进行性交易的中介团伙!

天哪!韩国警方捣毁一以中国游客为对象进行性交易的中介团伙!

奋斗在韩国
2026-06-24 22:18:38
大学围墙该拆吗?不开放都成这样了

大学围墙该拆吗?不开放都成这样了

赴一场山海啊
2026-06-24 01:11:00
“10亿”还干不翻一个贾浅浅?

“10亿”还干不翻一个贾浅浅?

现实的声音
2026-06-24 13:50:39
2026-06-25 05:00:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3480文章数 171关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

头条要闻

15岁男孩肥胖诱发糖尿病 抢救无效离世

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

游戏
旅游
房产
艺术
健康

猎魂世界:霍雨浩六大配置+操作问题分析!第一神控是否名副其实

旅游要闻

昆明闹市藏短巷,曾遍开赤红鹦哥花,一头贡象改了整条街名!

房产要闻

白鹅潭新增优质宅地!沙涌地块对望太古里,容积率仅 2.14

艺术要闻

疯狂大楼!俄罗斯富豪想改变上海香港天际线?

神经内科专家破解中风十大谣言

无障碍浏览 进入关怀版