网易首页 > 网易科技 > 网易科技 > 正文

OpenAI上新GPT-5.4 mini与nano,性能逼近旗舰,成本仅需三分之一

0
分享至

3月18日消息,今日,OpenAI推出GPT-5.4 mini和GPT-5.4 nano模型。这两款模型针对快速、大批量AI工作负载设计,属于低成本的大语言模型产品。

适用于AI工作流的小型模型

对许多AI工作流而言,高效的模型通常需要在性能、响应速度及工具调用能力之间取得平衡。

OpenAI表示:“这些模型专为对延迟敏感的工作负载设计,在此类场景中,延迟直接影响产品体验。例如:需要快速响应的编程助手、执行辅助任务的子智能体 (Subagents)、捕捉并解读屏幕内容的计算机操作系统,以及能对图像进行实时推理的多模态应用。”

该公司指出:“在这些应用场景中,适用的模型往往并非参数规模最大的,而是响应迅速、能稳定调用工具,且在专业任务中表现正常的模型。”

相较于GPT-5 mini,GPT-5.4 mini在编程、推理、多模态理解及工具使用方面有所提升,运行速度约为前者的两倍。

GPT-5.4 nano则是体积更小、速度更快的版本,主要针对分类、数据提取、排序及较简单的编程辅助任务。

性能表现

在评估体量较小、成本较低的模型时,性能和性价比是主要参考指标。OpenAI列举了新模型相较于旧模型的测试数据:

• 在SWE-bench Pro基准测试中,GPT-5.4 mini得分为53.40%,而GPT-5 mini为45.69%。

• 在Terminal-Bench 2.0测试中,GPT-5.4 mini达到59.30%,而GPT-5 mini为38.20%。

• 在GPQA Diamond测试中,GPT-5.4 mini得分为85.48%,接近GPT-5.4的93.00%。

• OSWorld-Verified结果显示,GPT-5.4 mini得分为70.60%,高于GPT-5 mini的42%。

测试结果显示,GPT-5.4 mini的通过率接近GPT-5.4的水平,且执行速度更快。在衡量模型正确解决问题能力的基准测试中,轻量级的GPT-5.4 mini与全功能版GPT-5.4表现相近。

GPT-5.4 nano的表现则介于上述两者之间。例如,其在SWE-bench Pro上得分为52.39%,在Terminal Bench 2.0上为46.30%。数据低于GPT-5.4 mini,但高于GPT-5 mini。

子智能体与多模态任务

在智能体生态系统中,AI的架构可以模拟现实中的协作模式。例如,将能力较强的AI模型(如GPT-5.4 Thinking)与速度较快、低成本的模型(如GPT-5.4 mini)结合使用,类似于资深工程师带领初级工程师协同工作。

智能体系统可组合不同规模的模型,由大模型负责任务规划,小模型负责执行子任务。在此语境下,GPT-5.4 mini可承担子智能体的工作,例如搜索代码库、审查文件及处理文档。

OpenAI表示:“GPT-5.4 mini具备多模态任务处理能力,适用于涉及计算机使用的任务。该模型能解读密集型用户界面的截图,以辅助完成计算机操作任务。”

可用性与定价

GPT-5.4 mini现已通过API、Codex和ChatGPT多个版本提供。免费版和Go级用户可通过附加菜单中的“Thinking”选项调用GPT-5.4 mini。OpenAI表示:“对于其他所有用户,GPT-5.4 mini将作为GPT-5.4 Thinking 触发速率限制后的备选模型。”

该公司表示,针对程序员,GPT-5.4 mini 已覆盖Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展及网页端。OpenAI 指出,这款mini 模型“仅消耗GPT-5.4配额的30%,让开发者能在Codex 中以约三分之一的成本处理简单编程任务”。此外,Codex 还可将任务委托给GPT-5.4 mini 子智能体,从而让推理强度较低的工作在低成本模型上运行。

成本对比数据如下:

• GPT-5.4 mini 定价为每百万输入Token 0.75美元,每百万输出Token 4.50美元,拥有40万词的上下文窗口 (Context Window)。

• GPT-5.4 nano 仅通过 API 提供,价格为每百万输入 Token 0.20美元,每百万输出 Token 1.25美元。

相比之下,GPT-5.4的定价为每百万输入 Token 2.50美元,每百万输出 Token 15.00美元。

客户测试反馈

科技公司 Hebbia 致力于开发帮助专业人士利用自然语言处理文档库的工具。其产品主要应用于金融、法律和科研等需要同时分析多份文档的领域。

Hebbia 首席技术官 Aabhas Sharma 表示:“在同类模型中,GPT-5.4 mini 提供了较为稳定的端到端性能。在我们的评估中,它在部分输出任务和引用召回率上的表现达到了预期,且成本有所降低。此外,其端到端通过率和来源归因能力在部分测试中高于体量更大的 GPT-5.4模型。”

数字工作区 Notion 是一款常用的生产力工具(本文即在 Notion 中撰写)。该软件为结构化和非结构化数据提供了统一平台,用户可利用其构建零代码的信息管理微应用,用于追踪文章创作、内部项目等。

Notion AI 工程负责人 Abhisek Modi 表示:“GPT-5.4 mini 在处理定义明确的任务时,表现出较高的精准度。在页面编辑方面,它处理复杂格式的能力接近 GPT-5.2,而算力消耗相对较低。”

Modi 补充道:“此前,通常只有旗舰模型才能稳定处理智能体工具调用 (Agentic Tool Calling)。目前,像 GPT-5.4 mini 和 nano 这样的小型模型也具备了相关能力。这将便于用户在 Notion 上构建自定义智能体 (Custom Agents) 时选择合适的模型。”(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
这是马刺失去的九年,也是重生的九年

这是马刺失去的九年,也是重生的九年

北青网-北京青年报
2026-05-16 20:24:19
同享福不共苦?张艺谋身体出状况,陈婷亲手摘掉张艺谋妻子认证

同享福不共苦?张艺谋身体出状况,陈婷亲手摘掉张艺谋妻子认证

观察鉴娱
2026-05-16 09:39:03
华谊兄弟得罪了这个大佬

华谊兄弟得罪了这个大佬

蓝钻故事
2026-05-13 15:35:51
特朗普访华不按常理出牌,有3件事很重要,中方这次没让步!

特朗普访华不按常理出牌,有3件事很重要,中方这次没让步!

沧海一书客
2026-05-16 18:21:47
广东一地通报“多家酒店床单未一客一换”:涉及我区城市便捷、麗枫酒店,情况属实,涉事酒店已被立案调查并责令整改

广东一地通报“多家酒店床单未一客一换”:涉及我区城市便捷、麗枫酒店,情况属实,涉事酒店已被立案调查并责令整改

江西晨报
2026-05-16 17:44:42
空军一号刚离京,北京红毯再度铺开,中国亮出最大底牌

空军一号刚离京,北京红毯再度铺开,中国亮出最大底牌

趣文说娱
2026-05-16 20:01:52
5月16日,人社部2026年养老金调整通知公布了吗?来看最新动态

5月16日,人社部2026年养老金调整通知公布了吗?来看最新动态

社保小达人
2026-05-16 10:41:10
3-1掀翻东道主!中国足球总算扬眉吐气,日本5-0也拦不住会师决赛

3-1掀翻东道主!中国足球总算扬眉吐气,日本5-0也拦不住会师决赛

北纬的咖啡豆
2026-05-16 19:35:51
2003年湖南“操场埋尸案”:得罪校长亲戚后失踪,17年后真相大白

2003年湖南“操场埋尸案”:得罪校长亲戚后失踪,17年后真相大白

红尘故事汇
2026-05-02 19:26:56
支付宝这次的瓜,真的有点大啊!

支付宝这次的瓜,真的有点大啊!

芝麻科技讯官方号
2026-05-16 00:17:03
国外知名女模竟要缩胸!直言它俩该退役了

国外知名女模竟要缩胸!直言它俩该退役了

小椰的奶奶
2026-05-16 15:24:20
日本真急眼了!刚到上海,中方就放王炸,日网友:这本该是我们的

日本真急眼了!刚到上海,中方就放王炸,日网友:这本该是我们的

扶苏聊历史
2026-05-15 18:52:17
新汽油来了,103号!

新汽油来了,103号!

纵相新闻
2026-05-16 20:06:04
电动车上有个开关,一定要关掉!不然电池很快就报废

电动车上有个开关,一定要关掉!不然电池很快就报废

老特有话说
2026-05-13 16:00:42
戛纳“禁裸令”一年后,女星走红毯风格大变,连芭芭拉都变保守了

戛纳“禁裸令”一年后,女星走红毯风格大变,连芭芭拉都变保守了

削桐作琴
2026-05-16 20:22:25
43岁未婚官宣二胎,网友傻眼了:姐你糊涂啊……

43岁未婚官宣二胎,网友傻眼了:姐你糊涂啊……

英国那些事儿
2026-05-14 23:32:24
国务院824号令正式施行!亲人离世黄金24小时,不求人不花冤枉钱

国务院824号令正式施行!亲人离世黄金24小时,不求人不花冤枉钱

石辰搞笑日常
2026-05-16 18:52:36
【英超】沃特金斯双响,维拉4比2利物浦锁定欧冠门票

【英超】沃特金斯双响,维拉4比2利物浦锁定欧冠门票

体坛周报
2026-05-16 07:58:13
A股:周六中午传来2个特大级消息!下周或迎来更大级别跳水大行情?

A股:周六中午传来2个特大级消息!下周或迎来更大级别跳水大行情?

股侠指北针
2026-05-16 13:09:34
新款奔驰CLE上市 售价45.76-59.98万元

新款奔驰CLE上市 售价45.76-59.98万元

车质网
2026-05-15 12:51:58
2026-05-16 21:00:49

科技要闻

涨的是车价,要的是老命

头条要闻

涉及五个方面 中美经贸磋商初步成果公布

头条要闻

涉及五个方面 中美经贸磋商初步成果公布

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
房产
游戏
旅游
军事航空

家居要闻

110㎡淡而有致的生活表达

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

LCK第二赛段:大难不死,必有后福!T1让一追二,三局战胜GEN

旅游要闻

天坛万株月季盛放,红墙蓝瓦映花海,这才是北京五月顶流!

军事要闻

联合国安理会审议叙利亚局势

无障碍浏览 进入关怀版
×