网易首页 > 网易号 > 正文 申请入驻

OpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

0
分享至

IT之家 9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。

OpenAI 将这一行为称为“scheming”(即“阴谋”),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。


OpenAI 指出,这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如,一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化,而在外人看来下,这种人看似守法且业绩更优。

不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。

OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。

研究团队为模拟未来可能出现的复杂场景,建立了测试环境,并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已加入 GPT-5)。

通过合作,研究团队在 o3 与 o4-mini 中引入“审慎对齐”(deliberative alignment)方法,即要求模型在执行任务前阅读并推理一份反阴谋规范。

结果显示,OpenAI 模型隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,缩减幅度约 30 倍;但仍存在罕见且严重的失败案例,且评估可能受到模型情境感知能力增强的干扰。

OpenAI 强调,目前结果依赖于对模型推理过程(即“chain-of-thought”)的可读性与可信度。但在推理透明性受限的情况下,业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前,应保持推理透明。

OpenAI 表示,这一问题对 AI 对齐构成严重挑战,应成为通向通用人工智能(AGI)研发的核心工作。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划推动跨机构合作,包括试点跨实验室安全评估,发起 50 万美元(IT之家注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,以及倡导业界普遍保持推理透明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东莞黄江规划:未来实现与深圳地铁接轨,镇内拟设6个站点

东莞黄江规划:未来实现与深圳地铁接轨,镇内拟设6个站点

南方都市报
2026-01-18 10:58:07
马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

老特有话说
2026-01-17 16:26:05
贺娇龙猝然离世,知情人曝抢救细节,伴随她的三个疑问,也该解开

贺娇龙猝然离世,知情人曝抢救细节,伴随她的三个疑问,也该解开

轩逸阿II
2026-01-17 09:34:00
“耄耋耆耈”这四个字你认识吗?是什么意思呢?读错小心闹笑话

“耄耋耆耈”这四个字你认识吗?是什么意思呢?读错小心闹笑话

长风文史
2026-01-14 11:40:58
王思聪39岁生日极尽奢华,懒懒甜蜜称呼引网友惊叹

王思聪39岁生日极尽奢华,懒懒甜蜜称呼引网友惊叹

早起的鸟儿有饭吃
2026-01-15 12:48:12
人生建议:永远不要在心里责怪任何人

人生建议:永远不要在心里责怪任何人

洞见
2026-01-18 10:25:29
人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

小熊侃史
2026-01-18 07:20:09
值得珍藏:脑机接口+可回收火箭+商业航天+半导体+军工+AI算力等

值得珍藏:脑机接口+可回收火箭+商业航天+半导体+军工+AI算力等

Thurman在昆明
2026-01-16 09:35:16
破案了!洛夫顿说不打,后来又打,卢伟进行了解答

破案了!洛夫顿说不打,后来又打,卢伟进行了解答

体育哲人
2026-01-17 17:13:23
李昊锁定最佳门将!单场8扑救让对手绝望,点球决战神扑4场0失球

李昊锁定最佳门将!单场8扑救让对手绝望,点球决战神扑4场0失球

奥拜尔
2026-01-17 22:22:57
李佳琦回应变胖了“现在142斤,比以前107斤帅多了”

李佳琦回应变胖了“现在142斤,比以前107斤帅多了”

笑饮孤鸿非
2026-01-17 16:06:11
一个人能无耻到什么地步?网友:十多年了,依然记得她当时的嘴脸

一个人能无耻到什么地步?网友:十多年了,依然记得她当时的嘴脸

另子维爱读史
2025-12-24 17:24:11
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣三年内没对手

小怪吃美食
2026-01-18 05:26:02
山东球迷被气笑了!邱彪糟糕用人,高诗岩纯送,庞铮麟打爆后卫线

山东球迷被气笑了!邱彪糟糕用人,高诗岩纯送,庞铮麟打爆后卫线

篮球资讯达人
2026-01-17 22:16:46
2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

除夕烟火灿烂
2026-01-14 10:08:45
14年前港姐郭羡妮倒贴3套房嫁河南农村现状如何

14年前港姐郭羡妮倒贴3套房嫁河南农村现状如何

流云随风去远方
2026-01-17 22:11:49
宁可相信常熟,也不相信恶人姚振华

宁可相信常熟,也不相信恶人姚振华

奔流财经社
2026-01-17 10:42:04
陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

粤睇先生
2026-01-18 01:51:44
贺娇龙已安葬昭苏当地公墓,那里长眠着她的父亲,其母亲发声:让她静静地离开吧;当地花店老板:很多人委托送花

贺娇龙已安葬昭苏当地公墓,那里长眠着她的父亲,其母亲发声:让她静静地离开吧;当地花店老板:很多人委托送花

极目新闻
2026-01-17 20:19:10
广东宏远今日早报!杜锋深夜发声,徐杰梦游挨批,朱芳雨找新外援

广东宏远今日早报!杜锋深夜发声,徐杰梦游挨批,朱芳雨找新外援

多特体育说
2026-01-18 07:40:03
2026-01-18 11:52:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
325120文章数 606888关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

全职主妇吞大量安眠药 丈夫:她觉得她是美女嫁我可惜

头条要闻

全职主妇吞大量安眠药 丈夫:她觉得她是美女嫁我可惜

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

手机
教育
艺术
数码
时尚

手机要闻

这是一组iPhone 17系列的数据,看完后你们想说什么

教育要闻

教育,需要走出分数的“围城”

艺术要闻

海边细沙被他表现得如此真实 | 马克·汉森

数码要闻

SOLAKAKA E9 Pro人体工学鼠标现身众筹平台,7侧键亮点足

翻拍一部剧,有这么难吗?

无障碍浏览 进入关怀版