网易首页 > 网易号 > 正文 申请入驻

GPT-5.4!「Agent 原生」大模型来了?

0
分享至


OpenAI 终于想明白了。


作者|桦林舞王

编辑|靖宇

在传闻刚刚两天后,当地时间 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而这次模型更新,主打的正是当下最火热的 AI Agent 方向。

在 GPT-5.4 之前,大模型的能力边界可以用一句话总结:它能告诉你「怎么做」,但它自己做不了。

你让它帮你分析竞争对手,它会给你一份洋洋洒洒的文字报告;你让它整理 Excel,它会写一段 Python 代码让你自己去跑;你让它帮你订机票,它会一步一步告诉你去哪个网站、点哪个按钮。

中间那道墙,叫做「计算机操作」

GPT-5.4 是 OpenAI 第一个把这道墙拆掉的通用模型。


GPT-5.4 相比之前模型的提升|图片来源:OpenAI

它可以通过截图识别屏幕内容,发出鼠标和键盘指令,在不同应用之间执行多步工作流。用 OpenAI 自己的话说,这是他们「迄今为止面向专业工作最强大、最高效的前沿模型」。

更技术一点,GPT-5.4 支持高达 100 万 token 的上下文窗口,并且可以调用 Playwright 等库,直接操控浏览器和桌面应用。

这意味着它处理的不再是「关于任务的对话」,而是「任务本身」

01

OpenAI 的铺垫

如果你一直在跟踪 OpenAI 最近几个月的动作,会发现 GPT-5.4 不是一个突然冒出来的产品,而是一条清晰战略线上的最新落子。

就在两周前,OpenAI 刚刚发布了 GPT-5.3-Codex,把 Codex 从「能写代码的 Agent」升级为「几乎能做开发者在电脑上所有事情的 Agent」,并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行业基准。

与此同时,OpenAI 推出了面向企业的「Frontier」平台,HP、Intuit、Uber 已经是早期用户。


GPT-5.4 在表格填写上明显比 5.2 更聪明|图片来源:OpenAI

更早之前的 3 月 2 日,OpenAI 和 AWS 把原有的 38 亿美元合作扩大到超过 1000 亿美元,为期 8 年,AWS 成为 OpenAI Frontier 平台的独家第三方云分发商。这笔钱的规模,本身就是一个信号。

1100 亿美元的最新融资轮,由 Amazon、SoftBank 和 Nvidia 各出数百亿美元撑起来,也在同期落地。

这不是一家在「研发好产品」的公司,这是一家在全力冲刺「赢得企业 AI Agent 市场」的公司。

GPT-5.4 的原生计算机操作能力,正是这场冲刺的关键武器。

02

真的好用吗?

发布会上的功能演示永远很好看,问题在于实际表现。

金融科技公司 Walleye Capital 在内部测试中报告,GPT-5.4 在 Excel 财务模型评估里,把准确度提高了 30 个百分点,显著加快了情景分析的自动化流程。

人才评估平台 Mercor 的 CEO 则直接称其为「我们测试过的最好模型」,在处理幻灯片制作、财务建模和法律分析等长周期任务上表现突出。

一位每天使用 Codex 的独立开发者,给出了更接地气的评价:「GPT-5.4 是我在 Codex 里的新日常驱动。它的思考方式更接近人类,没有 5.3 那么痴迷于技术细节。」但他也加了一句提醒——「要小心,我遇到过几次模型错误执行任务却隐瞒这一事实的情况。」


GPT-5.4 在操作和视觉方面的提升|图片来源:OpenAI

这个细节值得玩味。

基准测试数据也在印证这种能力的提升。据报道,GPT-5.4 在 GDPval 基准上的表现超过了 83% 的普通办公室员工。这个数字听起来很炸,但真正的问题不是「它能超过多少人」,而是「在哪些任务上能替代人」。

不过,爱丁堡大学信息学院的 Jeff Dalton 博士也指出了一个现实问题——目前的演示里,几乎没有足够详细的评估证据来支撑那些宏大的说法。能力是真实的,但边界在哪里,还需要更多独立验证。

03

Agent 战场,没有安全区

如果说 GPT-5.4 代表 OpenAI 的 Agent 野心,那竞争对手们并没有闲着。

Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了「Computer Use」功能,Anthropic 把它定位为专为复杂任务设计的混合推理模型。

Google 的 Gemini 2.0 系列也在「Agentic」能力上持续发力,Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。

但 GPT-5.4 和竞品的本质差异,在于它是 OpenAI 第一个把计算机操作能力,内置进通用模型的产品——不是一个独立工具,不是需要额外调用的 API,而是模型本身就带着这个能力。

这个「原生」二字,在工程实现上意味着什么,说白了就是更低的延迟、更自然的任务衔接、更少的「胶水代码」。对于想快速落地 Agent 应用的企业来说,这个区别直接影响部署成本。

OpenAI 还宣布 GPT-5.4 可以直接接入微软 Excel 和 Google Sheets,在单元格层面完成粒度分析和自动化操作。这一步,明显是在打企业决策流程的核心地带。

Agent 的战场,从来就不是哪家跑得快,而是谁能最先把自己嵌进企业工作流里,成为那个「拔不掉的存在」。

技术发布会总是充满激情,但真正的考验在第 91 天——那时候热度散去,用户在真实工作场景里打开这个工具,它能不能稳稳接住那个截图,准确点下那个按钮,安静地把任务跑完,然后把结果交回来。

那个开发者说的「隐瞒错误」,是我目前看到的这篇报道里最值得警惕的一句话。

AI Agent 能力的天花板,从来不是「它能做什么」,而是「你敢不敢信任它去做」

信任,才是这场 Agent 战争真正的货币

*头图来源:OpenAI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你认为 GPT-5.4 会不会是

OpenClaw 新的最佳拍档?


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方至今想不通:凭什么秦始皇死了2000年,中国还在他的布局里?

西方至今想不通:凭什么秦始皇死了2000年,中国还在他的布局里?

掠影后有感
2026-03-05 10:31:38
200亿都留不住!光刻机巨头宁愿“砸锅卖铁”也要搬离荷兰,为何

200亿都留不住!光刻机巨头宁愿“砸锅卖铁”也要搬离荷兰,为何

轩逸阿II
2026-03-05 23:50:10
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
岗位22个,湖南中医药大学第二附属医院公开招聘

岗位22个,湖南中医药大学第二附属医院公开招聘

潇湘晨报
2026-03-06 11:22:16
广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

广西女子发现罕见青竹鲤,时不时侧身蹭水底,网友:鱼生天花板!

狸猫之一的动物圈
2026-03-06 09:38:48
消息人士称PS6能光追4K120帧!售价约4800元

消息人士称PS6能光追4K120帧!售价约4800元

游民星空
2026-03-06 13:49:08
如果伊朗战败  对中国有何影响?

如果伊朗战败 对中国有何影响?

云石
2026-03-04 14:58:59
湖南女子与丈夫丁克40年,备受宠爱,退休后才知丈夫已三世同堂

湖南女子与丈夫丁克40年,备受宠爱,退休后才知丈夫已三世同堂

晓艾故事汇
2024-12-12 20:17:15
中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

李健政观察
2026-03-06 10:52:22
泽连斯基嘲讽欧尔班:离了俄石油连选举都赢不了

泽连斯基嘲讽欧尔班:离了俄石油连选举都赢不了

老马拉车莫少装
2026-03-06 08:07:01
特朗普狂言选伊朗领袖:美国霸权崩塌,中国崛起已是历史必然

特朗普狂言选伊朗领袖:美国霸权崩塌,中国崛起已是历史必然

Ck的蜜糖
2026-03-06 13:41:22
全国人大代表唐利军建议,凌晨1点到5点,强制下线未成年短视频账号

全国人大代表唐利军建议,凌晨1点到5点,强制下线未成年短视频账号

观威海
2026-03-06 13:43:02
不能二次加热的4种食物!专家提醒:吃不完或倒掉,别乱节俭

不能二次加热的4种食物!专家提醒:吃不完或倒掉,别乱节俭

全球军事记
2026-03-04 10:15:52
椰子水塌房了?检测4款热门全造假,if、盒马都在列!

椰子水塌房了?检测4款热门全造假,if、盒马都在列!

不正确
2026-03-06 13:15:15
三球被吹,仍5:0狂胜!亚洲杯八强定三席,中国女足需赢乌兹7球

三球被吹,仍5:0狂胜!亚洲杯八强定三席,中国女足需赢乌兹7球

小彭美识
2026-03-06 12:18:00
三顾茅庐!皇马换帅大戏上演,两大名帅抢班夺权

三顾茅庐!皇马换帅大戏上演,两大名帅抢班夺权

澜归序
2026-03-06 05:00:41
美防长曾语出惊人:若中美开战20分钟的话,中国将打掉美所有航母

美防长曾语出惊人:若中美开战20分钟的话,中国将打掉美所有航母

小陈讲史
2026-02-05 14:30:52
年薪600万华为技术总监,美国公民身份曝光,带13人窃密获刑

年薪600万华为技术总监,美国公民身份曝光,带13人窃密获刑

过期少女致幻录
2026-03-02 02:11:15
速滑世锦赛:宁忠岩500米刷新个人最好成绩,总积分暂列第三

速滑世锦赛:宁忠岩500米刷新个人最好成绩,总积分暂列第三

懂球帝
2026-03-06 10:30:14
中国和平统一超级重大机遇已经出现

中国和平统一超级重大机遇已经出现

纯科学
2025-11-17 15:05:25
2026-03-06 14:23:00
极客公园
极客公园
让最棒的创新成为头条
11855文章数 78832关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

中国航司重启中东航线 首架航班落地沙特利雅得

头条要闻

中国航司重启中东航线 首架航班落地沙特利雅得

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

本地
时尚
游戏
数码
公开课

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

全球唯一!“任天堂PS”原型机入藏电子游戏博物馆

数码要闻

MacBook Neo为何不用A19 Pro:库克早已给出答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版