网易首页 > 网易号 > 正文 申请入驻

GPT-5.4养龙虾太贵?OpenAI自己出手砍到了一折

0
分享至



最近OpenClaw可以说是火遍了大江南北。各大厂商都说自己的模型如何支持小龙虾,唯独没人推荐ChatGPT。

事实上OpenAI才收购了OpenClaw。

原因就一个“贵”。

让AI帮你完成一个稍微复杂的任务,比如自动化处理一批客户邮件,背后可能要调用模型几十上百次:理解意图、检索信息、生成草稿、校对润色、逐封发送……如果每一步都调用满血版GPT-5.4,一轮操作下来,饲料费(token)比虾本身还贵。

特别是随着OpenClaw这类agent框架的爆发,AI的工作模式已经发生了根本性转变:从前我们向AI提问,它盯着问题想很久,然后吐出一长串文字;现在AI面对一个复杂任务,要将其拆解成微小步骤分步推进。每一步都调用旗舰大模型,不仅延迟让人崩溃,成本也会高到离谱。

在这种背景下,OpenAI正式发布GPT-5.4 mini与nano两款小型模型,并宣称其为公司“迄今最强大的小型模型”。

麻雀虽小五脏俱全,不要小瞧这两个小玩意,不仅GPT-5.4核心的优势和能力它们继承了下来,同时还更快、更省资源,并且适合于大批量、高频率的AI任务调用。

OpenAI貌似是觉得mini还不够小,所以做出了更轻量的nano。

nano是GPT-5.4最轻量、最快速的版本,专为对速度和成本要求极高的任务而设计。

事实就是,用单一模型处理所有事务性价比太低,经常陷入高射炮打蚊子的境况,不如调整成大模型决定任务方向,小模型进行大规模快速执行的方案。

OpenAI自家的Codex就是这么干的。

一个主模型负责理解任务意图、拆解步骤,然后调度mini/nano级别的子agent去执行具体的代码修改、测试运行、结果校验,每个子任务只消耗极低的成本。

大模型就像坐镇中军、运筹帷幄的主帅,只抓顶层战略、调度全局资源。小模型则是无数支精锐轻骑,身形轻便、行动迅捷、批量奔赴前线,专一完成细分任务。

01

OpenAI为什么这么做

mini和nano在价格上确实“mini”以及“nano”。要理解OpenAI为什么押注轻量化,先看看这两款模型到底便宜到什么程度。

mini和nano均支持 400k tokens 的上下文窗口。在输入价格上,GPT-5.4旗舰版是2.5 美元/百万token,mini版是0.75美元/百万 token,nano版更是夸张,仅0.2美元/百万token,输入成本仅为旗舰模型GPT-5.4的8%。

而输出价格上,GPT-5.4是15美元/百万 token,mini版约为它的1/3(4.5 美元),nano版约为它的1/12(1.25 美元)。

换句话说,OpenAI用户们的账单直接砍到了零头。



价格只是表象,真正驱动OpenAI做这件事的,是整个行业的使用趋势已经发生了根本性转向。

轻量化小模型主要有调用成本低、响应快这两大特征,不少证据表明小模型已经成为当前AI落地最具性价比、最具增长潜力的选择。

在OpenRouter本月度最受欢迎LLM排行榜前十中,轻量化模型占到了6个席位,它们参数量普遍集中在数十亿至数百亿级别,和Claude Opus这类动辄数千亿甚至万亿参数的通用旗舰大模型形成鲜明的差异。

榜单Top 2席位被轻量化小模型包揽,第1名MiniMax M2.5以8.29T tokens的调用量断层领跑全榜,月度涨幅高达 476%;第2名Google Gemini 3 Flash Preview,调用量也达到4.24T tokens,远超多数通用旗舰大模型。



Hugging Face Hub的模型下载量统计同样印证了这一趋势:92.48%的下载量来自少于10亿参数的模型,86.33% 为5亿以下,69.83% 为2亿以下。

大模型也进入了薄利多销的时代。

1B+参数量的模型,即便包含多款舆论热度极高的开源大模型,整体下载占比仅为7.52%,不足轻量化模型的十分之一,这说明大模型的高关注度,似乎并未转化为真实的落地与采用。



从OpenAI自身的商业账本来看,做小模型更是一道必答题。

今年2月底,OpenAI宣布ChatGPT全球每周活跃用户已突破9亿,付费用户约5000 万,付费转化率仅约5%左右,绝大多数用户仍停留在免费版本。这也成为其未来商业化最核心的增长空间。

绝大多数的C端付费用户,核心使用场景是日常对话、文案润色、信息检索、轻量代码编写等高频轻量需求。

这类场景完全不需要GPT-5.4这类旗舰大模型的极限复杂推理能力,百亿级以内的轻量化小模型足以覆盖大部分需求,同时又能提供毫秒级响应、无排队等待的使用体验,完美匹配绝大多数用户的核心诉求。

说了这么多“为什么”,接下来看看这两款模型到底交出了怎样的答卷——毕竟,饲料便宜了,虾的个头要是也缩水了,那就不叫降本增效,叫偷工减料。

02

mini、nano能力几何

mini和nano的优势就只是小和便宜吗?

No No No

根据OpenAI官网的一系列跑分测试,可以说它们能力表现也很突出。

在业内公认最权威的AI程序员测试SWE-bench Pro 中,GPT-5.4 mini的准确率达到了54.4%,表现极具杀伤力,逼近满血版GPT-5.4的57.7%。

GPT-5.4 nano的准确率为52.4%,再考虑到它极低的成本,非常适合作为快速迭代的代码审查和辅助子agent。

以下两张图表看得更直观,横轴分别代表模型的响应时长和所用成本,纵轴均表示模型在任务中的准确率。

GPT-5.4虽然准确率稳居第一,但是在横轴上却延伸了太远,也就是不仅思考久,烧的钱还多。而nano和mini的折线则整体居于坐标图左侧,标志了它们极高的性价比。



它们只是牺牲了一点点终极的逻辑上限,就换来了极快的响应速度和极低的成本。

对此,不少网友戏称:小龙虾的饲料费终于被打下来了。

的确,mini和nano未来可能会成为养虾的主流API选择。

在OSWorld-Verified(真实电脑环境操作测试)中,GPT-5.4 mini达到了72.1%的准确率,几乎追平了满血旗舰版的75%。



这项测试主要是让AI像人一样,通过看显示器、动鼠标、敲键盘来使用一台真的电脑,包括使用Chrome、Office、VS Code等软件。

这才是OpenClaw等agent玩家最看重的指标。

过去让AI操控电脑,AI经常会瞎点或者反应迟钝。mini版本的这个高分意味着,它识别按钮、滑块、输入框的精度极高,在一些自动化任务上可以更加得心应手。

然而,也不是所有场景都适合用小模型。

nano模型在OSWorld-Verified上的得分仅为39.0%,甚至低于上一代GPT-5 mini的42.0%。

这意味着在需要精细操控电脑界面的复杂任务上,nano还力有不逮。

同样,对于需要深度推理、长链条逻辑的高难度任务,旗舰版GPT-5.4仍然不可替代。

小模型的价值不在于取代大模型,而在于和大模型搭配使用——把对的模型放在对的位置,才是子agent架构真正的精髓。

这也恰恰是nano和mini发布的深层意义,它们不是来抢旗舰版饭碗的,而是来帮旗舰版分担那些“高射炮打蚊子”的活儿。

当大模型不再需要亲自处理每一个琐碎步骤,整个系统的效率和成本结构都会发生质变。

OpenAI想打的不是一场简单的价格战,OpenAI内心OS是这样的:“我可以每个token少赚你点钱,但是我要让你多用我的小模型,把总收入抬上去。”

典型的薄利多销。

过去“便宜”是国产模型的护城河,可是这道护城河正在被填平。对普通开发者和企业用户而言,AI可能很快就会变成各行各业用得起、跑得快的新基础设施。

小龙虾的饲料费打下来了,养虾的门槛也在悄悄降低。接下来的问题是:谁能养出最肥的虾?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4.2万股民嗨了:锂电池龙头“603026”,又爆了!

4.2万股民嗨了:锂电池龙头“603026”,又爆了!

看财经show
2026-03-26 17:17:48
李金羽:邦本打替补纯是战术考量,我们很坦诚但外界过分解读

李金羽:邦本打替补纯是战术考量,我们很坦诚但外界过分解读

懂球帝
2026-03-26 21:28:17
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
中方拒收道歉,日本自卫官被转移,小泉进次郎24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎24小时后发声

究竟谁主沉浮
2026-03-27 02:50:14
迟迟等不到中企复工,巴拿马强援出山!已正式介入?中方要警惕

迟迟等不到中企复工,巴拿马强援出山!已正式介入?中方要警惕

小冠说娱
2026-03-25 22:54:52
“勾引”女人最狠的一招:主动戳中她这3个崩溃的秘密

“勾引”女人最狠的一招:主动戳中她这3个崩溃的秘密

娱乐洞察点点
2026-03-27 00:09:32
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

懂球帝
2026-03-26 15:59:41
尴尬 22岁夏思凝社媒晒性感视频 网友留言:吴艳妮我好爱你,真的

尴尬 22岁夏思凝社媒晒性感视频 网友留言:吴艳妮我好爱你,真的

风过乡
2026-03-25 10:56:58
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
我在西藏旅游,一个喇嘛见我后突然跪下:活佛,我们等了您百年

我在西藏旅游,一个喇嘛见我后突然跪下:活佛,我们等了您百年

千秋文化
2026-01-29 21:35:02
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

小徐讲八卦
2026-02-12 12:13:20
吃“人血馒头”?以为能蹭张雪峰热度,没成想自己先被扒个底朝天

吃“人血馒头”?以为能蹭张雪峰热度,没成想自己先被扒个底朝天

麦芽是个小趴菜
2026-03-27 01:41:01
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

快科技
2026-03-25 09:53:08
全线控四轮转向+超级智能体!智己LS8开启预售,25.98万起

全线控四轮转向+超级智能体!智己LS8开启预售,25.98万起

汽车消费网
2026-03-26 23:09:34
致命围堵!7500人强攻哈尔克岛计划曝光,伊朗的生死线要被掐断了

致命围堵!7500人强攻哈尔克岛计划曝光,伊朗的生死线要被掐断了

闻香阁
2026-03-25 22:07:27
2026-03-27 03:44:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2318文章数 8054关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
数码
游戏
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版