网易首页 > 网易号 > 正文 申请入驻

刚刚,奥特曼砸场发布 GPT-5.4!网友:一句 Hi 烧掉 80 美元

0
分享至

每次打开 AI 工具,你大概都要先想一秒钟:这个任务,该用哪个模型?写代码是一个,查资料是另一个,让 AI 帮你操作电脑,还得再开一个窗口。

今天过后, 这种分裂感终于有了一个答案。

就在刚刚,OpenAI 正式发布 GPT-5.4,把编程、推理、计算机操控、网页搜索和百万 Token 上下文全部整合进同一个模型,且没有为了整合而牺牲任何一项的能力。


OpenAI CEO 山姆·奥特曼也在 X 平台发了一条简短推文,点出了五个方向:知识工作更强、网页搜索更出色、原生计算机操控、支持百万 Token 上下文、响应过程中随时可介入。


寥寥数语,对应的恰好是过去两年 AI 应用落地中最集中的五个痛点。


知识工作:十次有八次,AI 赢了专业人士

理解 GPT-5.4 在知识工作上的进步,需要先了解 GDPval 这个基准的设计逻辑。

它横跨美国 GDP 贡献最大的 9 个行业、44 种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。

任务完成后,把输出结果交给行业内的真实从业者盲测打分,看 AI 的产出能赢过多少比例的人类同行。


GPT-5.4 的答案是 83.0%,意味着十次对比中有八次以上,行业专业人士认为 AI 的产出达到或超过了人类同行水准。上代 GPT-5.2 是 70.9%,差距将近 13 个百分点。

进步在电子表格建模上表现得最为具体。GPT-5.4 模拟初级投行分析师完成建模任务,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距将近 20 个百分点。


法律平台 Harvey 的 BigLaw Bench 测试结果同样亮眼,GPT-5.4 得分 91%,专业服务评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面同样值得关注。 幻觉问题一直是 AI 进入专业场景最大的拦路虎,每降低一个百分点,都意味着更多场景可以放心用它。

数据显示,与 GPT-5.2 相比,GPT-5.4 单条陈述出错的概率低了 33%,完整回复含有错误的概率低了 18%。

编程:一个模型,写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进主线,对开发者来说,这意味着你不再需要为了写代码单独开一个模型,而且编程能力本身也没有因此打任何折扣。

SWE-Bench Pro 专门测试真实软件工程任务,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力,几乎找不到明显的弱点。


知名 AI 评测博主 Dan Shipper 试用后写道:「这是我们最近一段时间里见过 OpenAI 最出色的规划能力,代码审查也很强,而且成本大约只有 Opus 的一半。」


他点出了两个具体维度。其一,规划能力是长任务成败的关键,GPT-5.4 在任务拆解和持续推进上明显更有条理。其二,与 Claude Opus 相比约一半的成本,对需要大规模 API 调用的开发者来说,这个差距在账单上会非常直观。

开启 Codex 中的 /fast 模式后,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。


与此同时,新推出的实验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又推进了一步。

GPT-5.4 在构建 Web 或 Electron 应用时,能够通过可视化浏览器进行实时调试,模型可以边写代码、边测试自己正在构建的应用,同时承担开发者和测试员两个角色。


OpenAI 展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4 生成了一个完整的等距视角主题公园模拟游戏,涵盖基于瓦片的路径铺设与景点建设系统、游客 AI 寻路与排队行为,以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。

Playwright Interactive 在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及 UI 指标的正确性。从写代码到测试验收,模型全程自己完成。

博主 Angel 同样用 GPT-5.4 写了一个 Minecraft 克隆版,模型花了约 24 分钟,运行流畅,过程中没有卡住。他在推文里写道「Minecraft 基本上被攻克了,我现在得找个新测试了」。


沃顿商学院教授 Ethan Mollick 同样获得了早期访问权限。他用同一条提示词,让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前 GPT-4 生成的版本并排放在一起,差距一眼可见。


操控电脑这件事,它现在比你做得好

这是 GPT-5.4 这次发布里最值得单独说一说的变化。此前 OpenAI 的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。

两套系统各管各的,信息要来回传递,效率自然打折。现在这道分隔没了,GPT-5.4 操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。

这也是 OpenAI 第一款将计算机使用(computer use)能力原生内置进通用模型的产品,以后谈 AI Agent,相信这会是一个新的起点。

基准测试结果显示,OSWorld-Verified 基准测试桌面导航能力,用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的成功率,人类基线是 72.4%,GPT-5.2 是 47.3%。


简言之,它不仅追上了人类,还超过了人类。

在只用截图模式测试浏览器操控的 Online-Mind2Web 基准中,GPT-5.4 达到 92.8%,对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%,

真实部署案例更能说明问题。Mainstay 将 GPT-5.4 用于约三万个物业税务门户网站的自动表单填写,首次成功率达 95%,三次以内成功率 100%,而此前同类模型仅在 73% 至 79% 之间。会话完成速度提升约三倍,Token 消耗降低约 70%。

这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4 在这一层做了专项加强,引入了原始图像(original)输入模式,支持最高 1024 万像素或 6000 像素最大边长的高保真图像输入;原有的高清(high)模式上限也从此前的标准提升至 256 万像素或 2048 像素最大边长。

工具调用与网页搜索:持续性是核心竞争力

一个复杂的 AI Agent 系统,背后可能挂着几十个 MCP 工具。过去的做法是每次对话开始前,把所有工具的说明一股脑塞进去,不管这次用不用得上,Token 先花了再说。

GPT-5.4 换了个思路:先给模型一份简单的工具清单(即引入工具搜索机制),真正需要用哪个,再去把那个工具的详细说明取过来,用过一次的还能直接缓存,下次不用重新拿。

在 250 项任务的测试中,启用 36 个 MCP 服务器的完整配置下,工具搜索模式在保持准确率完全不变的前提下,将总 Token 消耗降低了 47%。将近一半的成本节省,精度一点没少。


网页搜索方面,GPT-5.4 在 BrowseComp 基准上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 个百分点,Pro 版更达到 89.3%,创下业界最高分。Zapier CEO 评价说,GPT-5.4 会在其他模型放弃的地方继续搜索下去,是他们测试过持续性最强的模型。


百万 Token 上下文:长长长长长长

GPT-5.4 在 API 中支持最高 100 万 Token 的上下文窗口,相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。

但从测试结果来看,128K 至 272K 是表现最稳定的区间,适合日常使用。

256K 以上准确率开始下滑,需要针对具体任务验证后再用。512K 至 1M 区间的得分降至 36.6%,目前更接近实验性质,不适合直接用于对精度要求高的生产任务。


还有一个实际的成本问题需要注意:超过 272K 的请求会按两倍用量计入配额。也就是说,发一次超长上下文的请求,额度消耗等于两次普通请求,用之前值得想清楚是否真的需要这么长。

至于在视觉抽象推理基准 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 仅为 54.2%。


再比如 FrontierMath Tier 4 是目前公认最难的数学基准之一,包含 50 道研究级别的数学题,人类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%,上代为 31.3%。


这个数字的参照系是:一年前,最好的成绩是 o3 的 2%,目前最好的开源模型是 4.2%。

博主 Deedy 在推文中写道,从 2% 到 38%,「简直令人震惊」。Humanity's Last Exam 有工具辅助时,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 个百分点。

执行中调整,不是完成后返工

用过 AI 处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「中途打断」功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。用户可以在执行过程中随时介入调整方向,不必等到结果出来再从头重来。

这个功能把纠偏这件事从「完成后」提前到了「执行中」,对需要多轮协作的任务来说,体验差别会比较明显。功能目前已在 chatgpt.com 和 Android 应用上线,iOS 版本即将跟进。

即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默认思考模型。

GPT-5.2 Thinking 将保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用户可由管理员在后台开启早期访问,GPT-5.4 Pro 仅对 Pro 和 Enterprise 计划开放。


API 标准版定价为输入 2.50 美元/百万 Token,缓存输入 0.25 美元/百万 Token,输出 15 美元/百万 Token。Pro 版为输入 30 美元/百万 Token,输出 180 美元/百万 Token。Batch 和 Flex 处理享标准价格五折,Priority Processing 为两倍标准价格。

当然,强大的推理能力也有它的另一面。Hyperbolic 联合创始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」,模型就开始认真推理,直接烧掉了 80 美元。


这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。对于日常轻量任务,标准版或许是更合适的选择;Pro 版的推理火力,还是留给真正值得的场合更划算。

过去两年,AI 能力的讨论主要集中在基准测试成绩上的「聪明」,但 GPT-5.4 的聪明指向的是能够在真实工作流中,足够可靠地承担责任。

过去 AI 只能输出文字,人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。

AI 正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。而这个转变的速度,显然比大多数人预期的更快。



附上参考地址:

https://openai.com/index/introducing-gpt-5-4/

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

观威海
2026-03-06 14:23:13
陈幸同击败陈熠获世乒赛资格,国乒3男3女名单樊振东在列

陈幸同击败陈熠获世乒赛资格,国乒3男3女名单樊振东在列

三秋体育
2026-03-06 19:28:19
中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

李健政观察
2026-03-06 10:52:22
黄仁勋:仅用3周 OpenClaw 超越 Linux 30年!

黄仁勋:仅用3周 OpenClaw 超越 Linux 30年!

EETOP半导体社区
2026-03-06 11:36:41
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
79比98狂输19分!女篮争冠热门惨遭爆冷:没张子宇冲冠悬了?

79比98狂输19分!女篮争冠热门惨遭爆冷:没张子宇冲冠悬了?

篮球快餐车
2026-03-06 01:58:58
美伊打了足足6天,朝鲜突然发射巡航导弹,特朗普收到一封挑战书

美伊打了足足6天,朝鲜突然发射巡航导弹,特朗普收到一封挑战书

军机Talk
2026-03-05 18:22:21
阿联酋考虑冻结伊朗资产!此举或重创伊朗经济命脉

阿联酋考虑冻结伊朗资产!此举或重创伊朗经济命脉

财联社
2026-03-06 17:15:05
浙江17岁高中生率先发现新物种,联合发文登上SCI,当事人回应质疑:家长是普通人没人脉,未来想从事生科方向专业

浙江17岁高中生率先发现新物种,联合发文登上SCI,当事人回应质疑:家长是普通人没人脉,未来想从事生科方向专业

潇湘晨报
2026-03-06 13:00:40
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-03-06 10:11:22
两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

小徐讲八卦
2026-03-06 06:05:12
伊朗导弹击中耶路撒冷,驻有美军基地多国传出爆炸声

伊朗导弹击中耶路撒冷,驻有美军基地多国传出爆炸声

界面新闻
2026-03-02 15:09:03
深圳南山再添一所新高校!今年5月正式启用!

深圳南山再添一所新高校!今年5月正式启用!

深圳晚报
2026-03-06 16:39:10
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

一视财经
2026-03-05 21:21:03
老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

天下霸奇
2026-02-24 07:59:23
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
为了巴结英日,撕毁中国百亿投资项目,被耍后还想和中国再续前缘

为了巴结英日,撕毁中国百亿投资项目,被耍后还想和中国再续前缘

流史岁月
2026-02-26 16:45:04
货到了客户却被炸死了!中东战事重创义乌,500万迪拜订单失联

货到了客户却被炸死了!中东战事重创义乌,500万迪拜订单失联

温读史
2026-03-06 14:09:39
2026-03-06 22:00:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6159文章数 26791关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

本地
游戏
亲子
公开课
军事航空

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

《失落星船:马拉松》首发Steam峰值8.8万 不及《命运2》首发表现

亲子要闻

中韩双胞胎萌娃回国第一天,简直太幸福了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版