网易首页 > 网易号 > 正文 申请入驻

OpenAI发布GPT

0
分享至


过去几周,我们见证了OpenAI旗舰级大语言模型从GPT-5.3迭代到GPT-5.4。可以将这些模型视为驱动AI计算的引擎。每次代际跃升通常会带来性能和准确性的提升。

实际的发布情况如果没有记分卡可能会有些难以跟踪。3月5日,OpenAI发布了GPT-5.4 Thinking,这是一个高性能的深度思考模型。两天前,该公司发布了GPT-5.3(不是5.4)Instant模型,该模型"让日常对话变得更加一致地有用和流畅",但不一定更准确。

本周,OpenAI发布了GPT-5.4 mini和GPT-5.4 nano模型。这些模型专为快速、高效、大容量的AI工作负载而设计。它们基本上是经济型大语言模型产品。

对于许多AI工作流程来说,最有效的模型是能够平衡强大性能、快速响应和可靠工具使用的模型。

据OpenAI表示,"这些模型专为那些延迟直接影响产品体验的工作负载而构建:需要响应迅速的编码助手、快速完成支持任务的智能体、捕获和解释屏幕截图的计算机使用系统,以及能够实时推理图像的多模态应用程序。"

该公司表示,"在这些环境中,最好的模型往往不是最大的那个——而是能够快速响应、可靠使用工具,并在复杂专业任务上仍能表现良好的模型。"

与GPT-5 mini相比,GPT-5.4 mini在编码、推理、多模态理解和工具使用方面都有提升。该模型的运行速度是GPT-5 mini的两倍多。

GPT-5.4 nano是最小、最快的模型,专门针对分类、提取、排名和简单编码支持任务。

在考虑更小、更便宜的模型时,性能是决定因素。买家想知道他们的投资回报到底有多少。为了说明这种性能表现,OpenAI展示了相比几个月前发布的模型有显著优势:

GPT-5.4 mini在基准测试通过率方面接近GPT-5.4级别,同时提供更快的执行速度。换句话说,更小、更轻的GPT-5.4 mini模型在衡量模型是否正确解决问题的基准测试("通过率")上表现几乎与完整的GPT-5.4模型一样好。

GPT-5.4 nano处于中间位置。例如,它在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%,虽然不如GPT-5.4 mini高,但仍然比GPT-5 mini好得多。

技术专家公司Hebbia构建帮助专业人士使用自然语言挖掘大量文档集合的工具。他们的产品吸引了金融、法律和研究等领域的用户,在这些领域,同时分析多个文档并从中获得见解的能力特别有用。

Hebbia首席技术官Aabhas Sharma表示:"GPT-5.4 mini为这一级别的模型提供了强大的端到端性能。在我们的评估中,它在多个输出任务和引用回忆方面匹配或超越了竞争模型,成本却低得多。它还比更大的GPT-5.4模型实现了更高的端到端通过率和更强的来源归属。"

数字工作空间Notion是互联网生产力爱好者的宠儿。我正在我的Notion工作空间中写这篇文章。该技术为结构化和非结构化数据提供了一个家。你也可以使用Notion构建用于信息管理的无代码迷你应用程序。

Notion AI工程负责人Abhisek Modi说:"GPT-5.4 mini以令人印象深刻的精确度处理专注、明确定义的任务。特别是在编辑页面方面,它在处理复杂格式化时匹配并经常超越GPT-5.2,而计算量只是后者的一小部分。"

Modi继续说:"直到最近,只有最昂贵的模型才能可靠地处理智能体工具调用。今天,像GPT-5.4 mini和nano这样的较小模型可以轻松处理它,这将让我们的用户在Notion上构建自定义智能体时可以精确选择他们需要的智能程度。"

当你开始研究智能体如何适应整个生态系统时,很明显AI可以被构建来镜像现实世界的人类操作。例如,你可以将更强大的AI模型(如GPT-5.4 Thinking)与更快、更便宜的模型(如GPT-5.4 mini)结合起来,就像你可能有一个高级工程师管理一个初级工程师团队一样。

智能体系统可以组合不同大小的模型,大模型规划任务,小模型执行子任务。在这种情况下,GPT-5.4 mini可以处理子智能体工作,如搜索代码库、审查文件和处理文档。

OpenAI说:"GPT-5.4 mini在多模态任务上也很强大,特别是与计算机使用相关的任务。该模型可以快速解释密集用户界面的屏幕截图,以快速完成计算机使用任务。"

GPT-5.4 mini在API、Codex和ChatGPT版本中都可用。对于免费和Go层用户,GPT-5.4 mini可通过加号菜单中的"思考"选项访问。OpenAI说:"对于所有其他用户,GPT-5.4 mini可作为GPT-5.4 Thinking的速率限制回退。"

该公司表示,对于程序员,GPT-5.4 mini在Codex应用程序、CLI、IDE扩展和网络中都可用。OpenAI说,mini模型"只使用GPT-5.4配额的30%,让开发者在Codex中快速处理简单的编码任务,成本约为三分之一。"此外,Codex还可以委托给GPT-5.4 mini子智能体,让推理强度较低的工作在成本较低的模型上运行。

从成本对比可以看出差异显著:

相比之下,GPT-5.4的定价为每百万输入Token 2.50美元,每百万输出Token 15.00美元。这要贵得多。如果你试图控制成本并且不需要额外的处理能力,使用mini和nano模型是有意义的。

Q&A

Q1:GPT-5.4 mini相比GPT-5 mini有哪些改进?

A:GPT-5.4 mini在编码、推理、多模态理解和工具使用方面都有提升,运行速度是GPT-5 mini的两倍多,在基准测试通过率方面接近GPT-5.4级别,同时成本更低。

Q2:GPT-5.4 nano适合什么样的任务?

A:GPT-5.4 nano是最小、最快的模型,专门针对分类、提取、排名和简单编码支持任务设计,在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%。

Q3:如何在智能体系统中使用这些不同规模的模型?

A:智能体系统可以组合不同大小的模型,大模型如GPT-5.4 Thinking负责规划任务,小模型如GPT-5.4 mini执行子任务,比如搜索代码库、审查文件和处理文档等工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
芯片、AI、具身智能,这些行业头部企业,被美团投了个遍

芯片、AI、具身智能,这些行业头部企业,被美团投了个遍

Tech星球
2026-03-30 09:53:12
黄金逆转颓势连续第二日上涨,鲍威尔讲话后市场不再认为年内加息

黄金逆转颓势连续第二日上涨,鲍威尔讲话后市场不再认为年内加息

汇通网
2026-03-31 00:27:52
全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

老马拉车莫少装
2026-02-20 15:13:49
大s去小玥儿学校照曝光!一脸慈母样好温柔,和小杨阿姨相处融洽

大s去小玥儿学校照曝光!一脸慈母样好温柔,和小杨阿姨相处融洽

木子爱娱乐大号
2026-03-30 08:59:36
玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

千秋文化
2026-02-11 21:36:18
蒋鼎文病重后,蒋经国亲自前去探望,他道:经国啊,听你说话太累

蒋鼎文病重后,蒋经国亲自前去探望,他道:经国啊,听你说话太累

史笔似尘钩
2026-03-01 20:11:28
被时代淘汰的水果有哪些?网友:全吃过的孩子都十岁了吧!

被时代淘汰的水果有哪些?网友:全吃过的孩子都十岁了吧!

另子维爱读史
2026-02-25 21:20:46
贝克汉姆家的乡村庄园想装几盏灯,邻居直接写了43页投诉信!

贝克汉姆家的乡村庄园想装几盏灯,邻居直接写了43页投诉信!

英国那些事儿
2026-03-30 23:24:12
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
两性关系:65-75岁夫妻必看,真正惜命的是守住这7条底线!

两性关系:65-75岁夫妻必看,真正惜命的是守住这7条底线!

第7情感
2026-02-08 17:00:08
最美女保镖严月霞同志简历

最美女保镖严月霞同志简历

TVB的四小花
2026-03-25 07:54:32
把天捅破!美国驻以色列大使:若以色列拿下整个中东,那也没问题

把天捅破!美国驻以色列大使:若以色列拿下整个中东,那也没问题

达文西看世界
2026-02-22 21:18:10
从脚抽筋到去世,仅仅1晚!这起悲剧,给所有人敲响了警钟

从脚抽筋到去世,仅仅1晚!这起悲剧,给所有人敲响了警钟

看世界的人
2026-03-01 18:43:45
孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

潮鹿逐梦
2026-03-28 10:59:56
家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

冷眼看世界728
2026-03-28 20:11:50
官宣!4月1日起终身追责全面落地,多领域严查不留死角

官宣!4月1日起终身追责全面落地,多领域严查不留死角

北纬的咖啡豆
2026-03-30 14:48:58
上海千万不要买的一类房子

上海千万不要买的一类房子

环线房产咨询
2026-03-30 19:01:23
伊朗最终还是动用了自己的底牌,证明战争已经到了最危急的时刻!

伊朗最终还是动用了自己的底牌,证明战争已经到了最危急的时刻!

达文西看世界
2026-03-29 13:40:21
全红婵聊到体重哭了,每天只吃一顿饭,看到体重秤就特别害怕

全红婵聊到体重哭了,每天只吃一顿饭,看到体重秤就特别害怕

素素娱乐
2026-03-30 11:08:05
冲着颜值和肉体,看完了HBO的狗血新剧

冲着颜值和肉体,看完了HBO的狗血新剧

来看美剧
2026-03-30 20:53:17
2026-03-31 04:51:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17269文章数 49696关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

房产
艺术
手机
家居
公开课

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

艺术要闻

这个62岁大爷厉害了!他画的超写实美女骗了多少人?.....

手机要闻

4999元起!超能小V单vivo X300s发布:全焦段蔡司影像、支持口红增距镜

家居要闻

东方法式美学 现代简约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版