OpenAI最新旗舰模型GPT-5.5上线当天,评测团队Tessl就塞给它1742场考试。结果出炉后,一个尴尬的事实浮出水面:花更多钱,未必能买到更多智能。
一图看懂:三兄弟的成绩单
![]()
这张图浓缩了所有关键信息。横轴是单次运行成本,纵轴是任务得分,气泡大小代表延迟时间。三个模型挤在右上角,但位置关系很有意思。
GPT-5.5以89.4分登顶,单次成本0.49美元。GPT-5.4以89.3分紧随其后,成本0.30美元。GPT-5.3最憋屈,83.9分却要价0.44美元。
0.1分的差距,63%的价差。这不是性能竞赛,这是定价心理学现场教学。
技能加持下的真相
评测设计了一个关键变量:SKILL.md文件。这是结构化的领域知识文档,包含规则、模式和示例。没有它,模型裸奔解题;加载后,相当于开卷考试。
裸奔状态下,模型差距会被放大。但给足领域技能后,GPT-5.5和GPT-5.4的得分差缩到0.1分。Tessl团队的原话是:「这两个模型在技能增强型任务上功能相同。」
功能相同,成本不同。GPT-5.5的每token定价更高,而它的输出并不更精简。钱烧在同样的结果上。
GPT-5.3的处境更惨。它成本高于GPT-5.4,得分却低5.4分。Tessl团队毫不客气:「付更多,拿更少——这就是糟糕交易的完整定义。」
问题出在token膨胀。同样的任务,GPT-5.3生成更多无效内容,推高账单,拉低分数。
唯一值得买单的场景
GPT-5.5并非全无优势。延迟89.5秒,比GPT-5.4的135.4秒快了近三分之一。45秒的差距,在某些场景下是生死线。
但条件苛刻:你的agent必须受延迟严格约束,且成本预算足够宽松。Tessl的判断很克制:「这是可辩护的选择。」不是推荐,只是不反对。
对大多数人来说,这笔账算不过来。0.19美元的溢价,换0.1分的提升和45秒的时间。按这个逻辑,买高铁商务座是为了早到两分钟。
评测方法论:为什么这份数据可信
Tessl的测试设计值得拆解。11项真实工程技能,45个任务场景,每个场景跑6次取平均。不是抽几道题糊弄,是1742次独立运行。
评分用rubric清单,不是模糊打分。比如「是否删除.eslintrc.json并创建eslint.config.js」「是否使用PKCE方法的S256」「是否调用pipeline()而非链式.pipe()」。对错分明,没有「感觉不错」的空间。
一个典型任务「现代化Node.js库的Lint配置」,11条标准,101分制。模型迁移配置正确但遗留标准输入——扣分。没有灰色地带。
这种设计刻意消除评测噪音。当GPT-5.5和GPT-5.4的差距只有0.1分时,你可以确信这不是误差,是真实的能力天花板重叠。
产品视角:OpenAI在赌什么
从商业逻辑看,GPT-5.5的定价策略很清晰:用「最新最强」的品牌溢价,收割对延迟敏感的高端客户。同时把GPT-5.4留在甜点区,守住主流市场。
但风险在于,评测数据正在拆台。当第三方证明「最强」和「次强」在实际任务中无差别,品牌叙事就会磨损。更麻烦的是GPT-5.3——它证明了OpenAI自己的产品矩阵里,确实存在「越贵越差」的陷阱。
这对开发者的选型决策有直接影响。不是追新就好,不是贵就对。要算三笔账:任务得分、运行成本、延迟要求。GPT-5.4在两项上占优,只有延迟落后。
除非你的agent正在高频交易里抢毫秒,或者客服机器人每多等一秒就流失一个用户,否则那45秒不值得0.19美元。
行业信号:能力通胀与成本意识
这件事的深层信号是:大模型的「能力通胀」正在放缓。GPT-5.5的raw capability(原始能力)确实是OpenAI最强,但落到具体工程任务,边际收益急剧递减。
同时,「成本意识」正在成为选型核心。开发者不再只看基准测试榜上的分数,开始算每分钱的ROI。Tessl这类评测平台的兴起,本身就是市场成熟的标志。
SKILL.md机制也值得关注。它暗示了一个趋势:模型本身的差距,正在被「领域知识注入」抹平。给GPT-5.4一本好手册,它能追上GPT-5.5。这比换模型便宜多了。
未来可能属于「中等模型+优质技能库」的组合,而非无脑堆算力。这对OpenAI的商业模式是挑战——它卖的是模型调用,不是技能文档。
当然,延迟敏感场景永远存在。实时语音、高频交易、应急系统,45秒值千金。但这些是垂直 niche,不是大众市场。GPT-5.5的定位,更像是为特定客户定制的奢侈品,而非下一代基础设施。
评测数据不会说谎:89.4对89.3,0.49美元对0.30美元。数字摆在那里,选择取决于你更心疼钱,还是更心疼时间。或者,像大多数开发者一样,心疼钱——然后发现GPT-5.4已经够用了。
最后说句公道话:OpenAI至少没把GPT-5.5包装成「颠覆性突破」。它诚实地上线,诚实地更贵,诚实地快一点。至于值不值,Tessl把计算器递到你手里了。按一下,0.19除以0.1,每0.1分1.9美元。这大概就是当前AI能力的市价——精确到小数点后一位,贵得明明白白。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.