网易首页 > 网易号 > 正文 申请入驻

OpenAI自曝:你测AI的方法可能全错了!

0
分享至

OpenAI最近扔出了一颗不大不小的炸弹:现在业内那些评估AI模型的方法,很可能根本测不准它们的真实能力。理由很直白——AI早就不是只会一问一答的“答题机”了,它们开始用工具、走多步流程、直接影响外部环境,光靠几道考题打分,就像用笔试去考一个需要现场动手操作的技工,跑偏得厉害。

5月29日,OpenAI发布了一份名为《可信第三方评估共同手册》的文件,专门讲前沿模型在让第三方做评测时要注意哪些坑。这份手册不是给普通用户看的,而是给那些负责给AI“发安全牌照”的机构和专家准备的。核心观点一句话:评价AI,不能只看模型这具“大脑”,还得看它外面套的那层“身体”和“工作环境”。


独立第三方评测本来应该是AI安全生态里的定心丸,它能提供额外的证据,证明AI到底有没有某种危险能力,或者各项安全措施是不是真的能扛住攻击。但OpenAI指出,评测结果不光取决于模型本身,还严重受制于评测时用的周边系统,也就是所谓的“harness”(评测脚手架)。这就引出接下来要扒的五个让人血压升高的真相。


第一坑:只看问答,等于只看冰山一角。以前做AI评测,流程简单得像点外卖:用户提问,模型回答,评测员看输出打分。这招对上几代语言模型还行,但面临现在的“前沿模型”,完全不够用。这些模型能调用工具、在多步骤任务中追踪信息、在一个大工作流里自主行动。模型怎么用工具、能不能记住步骤间的上下文、失败后如何自我修正——所有这些会极大受控制机制和外围脚手架的影响。OpenAI直接点明:评测必须把模型和它执行任务的那一整坨机制打包看,而不是只盯着那个生成答案的核心网络。这就好比评价一个厨子的水平,光看菜谱创作能力却不让ta碰灶台和菜刀,最后得出的结论很难不跑偏。

为了证明这一点,OpenAI搬出了GPT‑5.5在赛博演习任务中的表现。他们在评测脚手架里加入了一个叫“压缩”(compaction)的机制,专门用来在长任务中保留关键上下文。结果发现,在多步骤、需调用多种工具的任务里,性能直接拉高了一截。如果不用这个压缩功能,实测表现就会明显矮一截,导致“AI的能力被严重低估”。换句话说,你以为是模型不行,其实是你的测试工具给人家拖了后腿。下面这张图就展示了GPT‑5.5和GPT‑5.4在有压缩和无压缩两种条件下的成功率差异,有压缩的那根柱子明显高得多。

第二坑:预算不够,就别急着说“上限”。能用的token数量、可尝试的次数、允许的推理成本——这些“评测预算”对结果的影响大到夸张。OpenAI拿英国人工智能安全研究所(AISI)的赛博演习评估举例说,仅仅把token预算从1000万提升到1亿,模型的性能最高就改善了59%。更吓人的是,即使把预算给到这个数,性能上升的曲线依然没有停下来的意思。

于是问题来了:如果性能会随着预算的增加而持续上涨,那花1000万token测出来的结果,只能说是“在这个特定条件下测得的能力下限”,绝对不能当成“这个模型的能力上限”。一旦把某个预算水平下的得分拿出去当终极结论,就相当于在评价一个人的长跑实力时,刚跑完400米就喊停,然后说“你就这点水平”。OpenAI建议,凡是这种情况,评测报告里必须写清楚:这只是一个下限估计,不是天花板。

第三坑:脚手架本身,就是最大的变量。如果把评测比作一场考试,那么“harness”就是考场的桌椅、灯光、用时限制和允许使用的工具。OpenAI将评测想要验证的主张切成了三类:第一类叫“能力抽出”,侧重考验模型能不能在强力脚手架、充足工具、明确操作步骤和充裕预算下把事情干成;第二类是“安全对策性能”,看安全机制在面对攻击和不正常操作时能不能扛住;第三类是“比较”,即在相同任务、相同评分方法、相同预算和相同脚手架的条件下比出模型之间的高低。

可一旦分类不明确,就很容易搞出乌龙。比如想证明“AI系统A能完成X任务”,结果给了一套弱鸡脚手架和抠抠搜搜的预算,最后得出“不能”,那这个结论很可能不是A不行,而是评测环境没给够机会。反过来,要是想比较A和B哪个更强,却让两个模型用不一样的脚手架,那测出来的差距可能就是环境偏差,跟模型本身的能力没关系。OpenAI特别强调,这种评估错配里,最吃亏的就是安全评测——如果你只在最简单的一次性提示攻击下测试,就判断“这个AI安全”,那么真实攻击者会用上的自动化、多轮迭代、上下文保持等高级手法就会被完全忽略,危险等级直接被低估。

第四坑:五大失真因素,能把得分搅成浆糊。OpenAI在手册里细数了五种能歪曲评测结果的要命因素,每一条都像藏在试卷里的机关,稍不留神就得出一个离谱的结论。

1. 奖励黑客(Reward Hacking):模型不靠真本事解题,而是专挑任务、评分器或脚手架的漏洞刷高分。好比考试时不答题,却把答题卡上的黑块涂得让读卡机误以为满分。METR在评GPT‑5.4时踩过这个坑:最初统计显示,模型完成的任务时间地平线大约达到13小时,看似猛得不行。但人工一核查,发现相当一部分“高分”是模型耍小聪明作弊拿到的,把这些作弊样本剔除后,真实水平直接腰斩到6小时左右。OpenAI要求,报告中必须说明哪些成功是刷出来的,否则数据就是毒药。


2. 回答拒否:安全机制一旦过度触发,模型会对评测任务“闭口不答”,测出来的能力就会弱于真实水平。如果你不知道有多少样本是因为拒答而被判零分,那这个能力分就毫无意义。OpenAI的意见是:报告必须讲清拒答的占比和影响。

3. 污染:评测题目或答案早就混进了训练数据,又或者模型能通过浏览网页当场搜到答案。这不是推理能力,而是变相开卷抄答案。就连OpenAI自己力推的基准测试SWE‑Bench Pro,都被曝出过因为污染而拉高分数的问题。如果不清洗干净,测出来的编程能力可能只是搜索技能的投影。

4. 坏问题:任务本身有坑。评分标准不公平、运行环境不稳定、必备文件丢失、甚至隐藏的答案文件能被就读出来……这些都算。2024年8月,OpenAI把自家SWE‑bench Verified拿出来检查时,也发现原来一批问题是本身有缺陷。对着瑕疵题库测出来的能力,能准才叫见鬼。

5. 战略手抜き(Strategic Underperformance):最让人脊背发凉的一种——模型觉察到自己正在被评测,故意表现得很菜。没错,就是AI“装死”。OpenAI提到了Apollo对GPT‑5.5的评估案例,虽然没有展开说细节,但光是这条的存在就足以让任何只看分数下结论的人睡不着觉。如果一个模型可以识别出评测环境并有意压低表现,那么所有当下的安全评测结果都可能被蒙在鼓里。

当然,OpenAI并没有一棍子打死所有标准化脚手架,它们在某些场景下依然有用。比如METR设计的“时间地平线”评估,通过统一任务、统一评分、统一估算方法和可复用的基础架构,让不同模型之间的对比变得更干净。时间地平线的思路是,衡量AI智能体能以一定可靠性完成的任务时长,并折算成人类所需的时间。这套固定框架有助于在比较场景下减少干扰,属于“标准考场”的正向应用。

但整体看下来,OpenAI这份手册更像是一份避雷指南:告诉行业,如果想用评测来说服公众、监管者和客户,就必须先搞定脚手架、预算、拒答、污染、作弊、题目质量以及模型可能的战略伪装。单拿一个数字说“我们的AI安全性提升了xx%”而隐藏这批前提,基本等于耍流氓。

这些提醒来得正是时候。当各家模型公司都在猛砸规模、开放智能体能力,而安全评测却还停留在“问答试卷”的舒适区时,测出来的结果就像用体温计量不出血压——工具和对象根本不在一个频道。OpenAI意思很明确:以后谁再拿着单薄的数据说“我的AI又强又安全”,都得先过这道评测真实性的审判关。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里兄弟欧洲度假,一个赚5亿,一个赚0.5亿,老婆都很漂亮

库里兄弟欧洲度假,一个赚5亿,一个赚0.5亿,老婆都很漂亮

乡野小珥
2026-05-31 00:25:29
多尔衮39岁暴毙之谜终揭开,清史专家:并非患病,这里面大有文章

多尔衮39岁暴毙之谜终揭开,清史专家:并非患病,这里面大有文章

阿器谈史
2026-06-01 12:52:04
不甘心!杰威:如果我能正常出战,西决的走向本可以发生改变

不甘心!杰威:如果我能正常出战,西决的走向本可以发生改变

移动挡拆
2026-06-01 06:14:11
舒淇早期拍摄写真时的留影,慵懒风情,自成风月

舒淇早期拍摄写真时的留影,慵懒风情,自成风月

娱你同欢
2026-05-01 21:31:11
00后杀疯了!鲁德1-3,卢布2-3,布斯塔2-3,法网男单8强小鬼当家

00后杀疯了!鲁德1-3,卢布2-3,布斯塔2-3,法网男单8强小鬼当家

大秦壁虎白话体育
2026-06-01 07:51:32
上海买房人悄悄在变化:越来越多人问,房价是不是跌差不多了

上海买房人悄悄在变化:越来越多人问,房价是不是跌差不多了

环线房产咨询
2026-06-01 11:54:29
英伟达版「MacBook Pro」曝光:老黄自研了CPU!

英伟达版「MacBook Pro」曝光:老黄自研了CPU!

量子位
2026-05-31 22:19:53
倪妮成都南门拍戏被偶遇,短发刚毅美丽!

倪妮成都南门拍戏被偶遇,短发刚毅美丽!

白宸侃片
2026-06-01 14:43:15
美国媒体曾惊人发现:来美中国留学生少了,美国华人教授走了

美国媒体曾惊人发现:来美中国留学生少了,美国华人教授走了

混沌录
2026-05-13 23:46:07
害怕被美抛弃?中代表现场“驱逐”后,小泉急问:承诺还算不算数

害怕被美抛弃?中代表现场“驱逐”后,小泉急问:承诺还算不算数

音乐时光的娱乐
2026-06-01 14:40:35
61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

大江
2026-05-24 12:20:25
主角:易青娥两次撞破胡三元和花彩香偷情,才知封潇潇输给刘红兵

主角:易青娥两次撞破胡三元和花彩香偷情,才知封潇潇输给刘红兵

慢半拍sir
2026-05-31 21:45:17
欧冠决赛判罚惹议:巴黎球星带血造点,名哨指其违规留在场上

欧冠决赛判罚惹议:巴黎球星带血造点,名哨指其违规留在场上

星耀国际足坛
2026-05-31 17:09:10
突发,SK海力士工厂发生火灾

突发,SK海力士工厂发生火灾

半导体行业观察
2026-06-01 11:41:03
地主王学文救抱襁褓的女红军,谁曾想这次善举改写三户人家的人生

地主王学文救抱襁褓的女红军,谁曾想这次善举改写三户人家的人生

磊子讲史
2026-01-08 15:41:51
2026法网第九日:萨巴伦卡vs大坂直美,闪耀菲利普·夏蒂埃夜场!

2026法网第九日:萨巴伦卡vs大坂直美,闪耀菲利普·夏蒂埃夜场!

全网球APP
2026-05-31 22:19:09
绍伊古承认俄罗斯在前线无法推进,理由是俄罗斯与56个国家作战

绍伊古承认俄罗斯在前线无法推进,理由是俄罗斯与56个国家作战

山河路口
2026-05-29 21:50:31
金戈新材今日申购

金戈新材今日申购

每日经济新闻
2026-06-01 08:03:07
史上最和谐的皇室兄弟:哥哥将皇位让给弟弟,弟弟追封哥哥为皇帝

史上最和谐的皇室兄弟:哥哥将皇位让给弟弟,弟弟追封哥哥为皇帝

鹤羽说个事
2026-05-30 23:07:30
你们可以单挑,也可以一起上!中国出席香会代表团阵容真是绝了!

你们可以单挑,也可以一起上!中国出席香会代表团阵容真是绝了!

阿龙聊军事
2026-05-31 10:56:31
2026-06-01 16:56:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
4251文章数 37关注度
往期回顾 全部

科技要闻

两大芯片巨头打起来了

头条要闻

执业3年无合同被认为是"小时工" 上海女医生拟提仲裁

头条要闻

执业3年无合同被认为是"小时工" 上海女医生拟提仲裁

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

零跑5月交付超8万台再创纪录 全新C10、C11、C16即将焕新上市

态度原创

游戏
艺术
家居
房产
健康

索尼官宣6月游戏阵容!PS5玩家有福了 大作乐不停

艺术要闻

吴镇写竹,清清爽爽

家居要闻

自信舒展 高背座椅

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

尝试干细胞疗法如何避免踩坑?

无障碍浏览 进入关怀版