网易首页 > 网易科技 > 网易科技 > 正文

OpenAI上新GPT-5.4 mini与nano,性能逼近旗舰,成本仅需三分之一

0
分享至

3月18日消息,今日,OpenAI推出GPT-5.4 mini和GPT-5.4 nano模型。这两款模型针对快速、大批量AI工作负载设计,属于低成本的大语言模型产品。

适用于AI工作流的小型模型

对许多AI工作流而言,高效的模型通常需要在性能、响应速度及工具调用能力之间取得平衡。

OpenAI表示:“这些模型专为对延迟敏感的工作负载设计,在此类场景中,延迟直接影响产品体验。例如:需要快速响应的编程助手、执行辅助任务的子智能体 (Subagents)、捕捉并解读屏幕内容的计算机操作系统,以及能对图像进行实时推理的多模态应用。”

该公司指出:“在这些应用场景中,适用的模型往往并非参数规模最大的,而是响应迅速、能稳定调用工具,且在专业任务中表现正常的模型。”

相较于GPT-5 mini,GPT-5.4 mini在编程、推理、多模态理解及工具使用方面有所提升,运行速度约为前者的两倍。

GPT-5.4 nano则是体积更小、速度更快的版本,主要针对分类、数据提取、排序及较简单的编程辅助任务。

性能表现

在评估体量较小、成本较低的模型时,性能和性价比是主要参考指标。OpenAI列举了新模型相较于旧模型的测试数据:

• 在SWE-bench Pro基准测试中,GPT-5.4 mini得分为53.40%,而GPT-5 mini为45.69%。

• 在Terminal-Bench 2.0测试中,GPT-5.4 mini达到59.30%,而GPT-5 mini为38.20%。

• 在GPQA Diamond测试中,GPT-5.4 mini得分为85.48%,接近GPT-5.4的93.00%。

• OSWorld-Verified结果显示,GPT-5.4 mini得分为70.60%,高于GPT-5 mini的42%。

测试结果显示,GPT-5.4 mini的通过率接近GPT-5.4的水平,且执行速度更快。在衡量模型正确解决问题能力的基准测试中,轻量级的GPT-5.4 mini与全功能版GPT-5.4表现相近。

GPT-5.4 nano的表现则介于上述两者之间。例如,其在SWE-bench Pro上得分为52.39%,在Terminal Bench 2.0上为46.30%。数据低于GPT-5.4 mini,但高于GPT-5 mini。

子智能体与多模态任务

在智能体生态系统中,AI的架构可以模拟现实中的协作模式。例如,将能力较强的AI模型(如GPT-5.4 Thinking)与速度较快、低成本的模型(如GPT-5.4 mini)结合使用,类似于资深工程师带领初级工程师协同工作。

智能体系统可组合不同规模的模型,由大模型负责任务规划,小模型负责执行子任务。在此语境下,GPT-5.4 mini可承担子智能体的工作,例如搜索代码库、审查文件及处理文档。

OpenAI表示:“GPT-5.4 mini具备多模态任务处理能力,适用于涉及计算机使用的任务。该模型能解读密集型用户界面的截图,以辅助完成计算机操作任务。”

可用性与定价

GPT-5.4 mini现已通过API、Codex和ChatGPT多个版本提供。免费版和Go级用户可通过附加菜单中的“Thinking”选项调用GPT-5.4 mini。OpenAI表示:“对于其他所有用户,GPT-5.4 mini将作为GPT-5.4 Thinking 触发速率限制后的备选模型。”

该公司表示,针对程序员,GPT-5.4 mini 已覆盖Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展及网页端。OpenAI 指出,这款mini 模型“仅消耗GPT-5.4配额的30%,让开发者能在Codex 中以约三分之一的成本处理简单编程任务”。此外,Codex 还可将任务委托给GPT-5.4 mini 子智能体,从而让推理强度较低的工作在低成本模型上运行。

成本对比数据如下:

• GPT-5.4 mini 定价为每百万输入Token 0.75美元,每百万输出Token 4.50美元,拥有40万词的上下文窗口 (Context Window)。

• GPT-5.4 nano 仅通过 API 提供,价格为每百万输入 Token 0.20美元,每百万输出 Token 1.25美元。

相比之下,GPT-5.4的定价为每百万输入 Token 2.50美元,每百万输出 Token 15.00美元。

客户测试反馈

科技公司 Hebbia 致力于开发帮助专业人士利用自然语言处理文档库的工具。其产品主要应用于金融、法律和科研等需要同时分析多份文档的领域。

Hebbia 首席技术官 Aabhas Sharma 表示:“在同类模型中,GPT-5.4 mini 提供了较为稳定的端到端性能。在我们的评估中,它在部分输出任务和引用召回率上的表现达到了预期,且成本有所降低。此外,其端到端通过率和来源归因能力在部分测试中高于体量更大的 GPT-5.4模型。”

数字工作区 Notion 是一款常用的生产力工具(本文即在 Notion 中撰写)。该软件为结构化和非结构化数据提供了统一平台,用户可利用其构建零代码的信息管理微应用,用于追踪文章创作、内部项目等。

Notion AI 工程负责人 Abhisek Modi 表示:“GPT-5.4 mini 在处理定义明确的任务时,表现出较高的精准度。在页面编辑方面,它处理复杂格式的能力接近 GPT-5.2,而算力消耗相对较低。”

Modi 补充道:“此前,通常只有旗舰模型才能稳定处理智能体工具调用 (Agentic Tool Calling)。目前,像 GPT-5.4 mini 和 nano 这样的小型模型也具备了相关能力。这将便于用户在 Notion 上构建自定义智能体 (Custom Agents) 时选择合适的模型。”(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
人事通知我被开除,老板问我持有多少股份,我不多,也就58%

人事通知我被开除,老板问我持有多少股份,我不多,也就58%

奶茶麦子
2026-03-18 22:23:09
摩友在湖南高速加油被拒,当场和领导硬刚,加上油后转头就要投诉

摩友在湖南高速加油被拒,当场和领导硬刚,加上油后转头就要投诉

潮鹿逐梦
2026-03-18 19:16:33
暴跌93%,理想失控了!

暴跌93%,理想失控了!

财经三分钟pro
2026-03-18 19:04:41
美伊大战将越南打回原形,南北高铁早点修好,也不至于这么狼狈

美伊大战将越南打回原形,南北高铁早点修好,也不至于这么狼狈

几人尽弃
2026-03-19 02:02:44
腾讯最强上市子公司,股价暴跌24%!被汽水音乐整懵了

腾讯最强上市子公司,股价暴跌24%!被汽水音乐整懵了

科技每日推送
2026-03-18 17:49:11
新华社消息|再延长30年!我国全面开展农村承包地二轮到期延包整省试点

新华社消息|再延长30年!我国全面开展农村承包地二轮到期延包整省试点

新华社
2026-03-18 20:59:53
为什么西方始终提防和不接纳 俄罗斯?俄罗斯这种国家有一个毛病

为什么西方始终提防和不接纳 俄罗斯?俄罗斯这种国家有一个毛病

我心纵横天地间
2026-02-12 14:31:34
伊朗总统誓言为拉里贾尼复仇!以军:将“追杀”伊朗新任最高领袖!美军称用多枚2.7吨钻地弹轰炸霍尔木兹海峡沿岸伊朗导弹阵地

伊朗总统誓言为拉里贾尼复仇!以军:将“追杀”伊朗新任最高领袖!美军称用多枚2.7吨钻地弹轰炸霍尔木兹海峡沿岸伊朗导弹阵地

每日经济新闻
2026-03-18 09:30:03
315 撕开 AI 遮羞布:别让假信息害了患者!这款 “不掺假” 工具才是医生刚需

315 撕开 AI 遮羞布:别让假信息害了患者!这款 “不掺假” 工具才是医生刚需

梅斯医学
2026-03-17 07:54:05
中方刚说完,扎哈罗娃回应!俄对黑瞎子岛有新想法,立3年军令状

中方刚说完,扎哈罗娃回应!俄对黑瞎子岛有新想法,立3年军令状

潇湘烟雨水
2026-03-19 02:42:59
内蒙古乌兰察布市政府原副市长王国相被提起公诉

内蒙古乌兰察布市政府原副市长王国相被提起公诉

界面新闻
2026-03-18 16:07:27
新加坡媒体:中国外交发生变化,放弃了和平解决中美问题的想法

新加坡媒体:中国外交发生变化,放弃了和平解决中美问题的想法

李子橱
2026-03-18 14:10:37
太心酸了!深圳多数普工午休现状曝光,垫着纸皮在地上躺半小时…

太心酸了!深圳多数普工午休现状曝光,垫着纸皮在地上躺半小时…

火山詩话
2026-03-18 09:56:07
天津一地“因抢房打架”?当地回应:网传信息不实

天津一地“因抢房打架”?当地回应:网传信息不实

环球网资讯
2026-03-18 16:17:16
我国学者发现,耳机/智能手机会将空气中的磁性纳米颗粒吸向大脑,引发神经毒性

我国学者发现,耳机/智能手机会将空气中的磁性纳米颗粒吸向大脑,引发神经毒性

生物世界
2026-03-17 19:10:37
订单积压600亿欧元、已排到2030年!欧美焦头烂额,中国击碎垄断

订单积压600亿欧元、已排到2030年!欧美焦头烂额,中国击碎垄断

大卫聊科技
2026-03-18 13:19:39
连续三天,内塔尼亚胡“自证活着”

连续三天,内塔尼亚胡“自证活着”

极目新闻
2026-03-18 07:52:35
新华视评:不办白不办,你办我也办?乡村“无事酒”之风不可长

新华视评:不办白不办,你办我也办?乡村“无事酒”之风不可长

澎湃新闻
2026-03-17 23:32:07
伊朗开展新一阶段“强力打击”,又拿出新导弹:射程1400公里,突防能力强!特朗普:我们震惊了,他们反击了!内塔尼亚胡最新表态

伊朗开展新一阶段“强力打击”,又拿出新导弹:射程1400公里,突防能力强!特朗普:我们震惊了,他们反击了!内塔尼亚胡最新表态

每日经济新闻
2026-03-18 00:20:05
美行业组织警告:如果美国再这么晃荡,中国将会在5年内一骑绝尘

美行业组织警告:如果美国再这么晃荡,中国将会在5年内一骑绝尘

近史博览
2026-03-16 22:02:09
2026-03-19 04:36:49

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

教育
房产
游戏
本地
公开课

教育要闻

菲尔兹奖得主、六院院士、日本2所大学原校长逝世

房产要闻

大规模召回离职员工?碧桂园最新回应!

23年前的美少女恐怖神作如今重生!《零红蝶重制版》值不值得玩?

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×