网易首页 > 网易号 > 正文 申请入驻

GPT-5.4登场,职场巨变!数字员工时代生产力飞跃开启!

0
分享至



就在刚刚,AI 界再次变天!

OpenAI 今天凌晨正式发布了全新旗舰模型 ——GPT-5.4!

这次一口气发了两个版本: GPT-5.4 Thinking 与 GPT-5.4 Pro。

这次的模型定位又上了一个层次:专为专业办公而生!

如果说之前的 GPT 是个“能说会道”的军师,那么今天的 GPT-5.4 则是直接长出了双手的“超级干将”。它不仅能思考、能编程,更进化出了逆天的原生“计算机控制”能力

可以说,GPT-5.4 把 OpenAI 最近几代模型的能力整合在了一起:

GPT-5.2 的推理能力

GPT-5.3-Codex 的编程能力

Agent 工作流能力

最终形成一个新的统一模型。目标就是自动完成复杂任务。

从写代码、做 PPT、建财务模型,到自动操作电脑、跨软件执行任务,GPT-5.4 正在把 AI 从一个“聊天工具”,变成真正的数字员工




堪比AI的成年礼

话不多说,先来看核心亮点,这简直就是 AI 的“成年礼”。总结有四点:

第一,GPT终于实际意义上长出“双手”:OpenAI首个具备原生、最先进计算机操作能力(Computer Use)的通用模型。

第二,满分文档侠:幻觉率大幅降低,Excel、PPT、Word 处理能力达到人类专家水准。

第三,百万级视野:支持100 万 token超长上下文,复杂任务不再“断片”。

第四,思考可视化:全新的“思维草稿”功能,你可以实时介入并修正 AI 的思考路径。

逆天进化:它能像人一样操作你的电脑

这是本次发布最炸裂的部分。GPT-5.4 拥有了原生的视觉感知和鼠标键盘控制能力。(也就是说,它可以像人一样通过截图、点击鼠标、敲击键盘来操作真实的电脑界面。 )

在 OSWorld 测评(衡量 AI 操作桌面环境的能力)中,GPT-5.4 的成功率达到了75.0%,不仅远超前代的 47.3%,甚至超越了人类的平均水平(72.4%)



注意:

这里的 tool yields 是指助手让步以等待工具响应。如果并行调用 3 个工具,然后又并行调用 3 个工具,那么产出次数将是 2 次。工具产出比工具调用更能反映延迟,因为它们体现了并行化的优势。

关键是,操作速度也比前代有大幅提升,下面是视频未加速的场景。



AI 可以通过浏览器界面完成一整套任务:

读取邮件、下载附件、批改作业、记录成绩到 Excel整个流程完全自动化。

GPT-5.4会:

自动打开浏览器寻找资料,再复制到你的 Excel。

直接在专业的软件后台通过鼠标点击完成操作。

理解复杂的 UI 界面,甚至能帮你在高分辨率图像中定位到一个极小的按钮。

这就是Agent 时代真正需要的能力

Excel、PPT、文档能力明显变强

OpenAI这次特别强化了一类任务:办公软件工作。

例如:在Excel方面,

在模拟投行初级分析师的建模任务中,跟前代对比,提升十分明显:

GPT-5.4 得分:87.3%

GPT-5.2 得分:68.4%

PPT方面,在人工评审中:

68% 的评委更喜欢 GPT-5.4 制作的演示文稿。

原因主要有三个:视觉设计更好、版式更丰富、图片使用更合理。

这意味着 AI 正在真正进入白领工作的核心工具链



知识工作性能,逼近专业人士

这还不够,GPT-5.4 已经可以逼近专业人士了!

GDPval的评测中,GPT-5.4 的表现非常惊人。这个评测模拟44 种职业的真实工作任务,包括:制作销售方案、设计生产流程图、建立会计报表、排班表、制作短视频

结果是:GPT-5.4 在 83% 的对比中,达到或超过行业专业人士水平。

而 GPT-5.2 的成绩只有70.9%

AI 在知识工作的质量上,又往前迈了一大步。



开发者狂欢:编程与工具调用的终极形态

编程能力上,GPT-5.4 有两大升级。

第一,GPT-5.3-Codex 的完美融合:GPT-5.4 整合了此前专为写代码设计的 GPT-5.3-Codex 的能力,且支持 /fast 模式,速度提升 1.5 倍,让代码生成“几乎瞬发”。在 SWE-Bench Pro 上得分 57.7%,与 GPT-5.3-Codex 的 56.8% 相当,但延迟更低。

第二,工具搜索(Tool Search):以往给模型配备大量外部工具时,所有工具定义都要塞进提示词里,动辄消耗数万个 token。 GPT-5.4 改为按需查找工具,在测试中将 token 消耗减少了 47%,对于依赖大量 MCP 工具的开发者来说成本节省明显。





而且,OpenAI表示,在开发复杂任务时,他们致力于让模型能够非常擅长检查它自己的工作。

OpenAI 研究员 SQ Mah 还现场给出了完成复杂应用开发的实际案例。

打开Codex,使用GPT-5.4 Thinking,并把推理等级调到High Reasoning

任务是:

构建并测试一个3D 国际象棋游戏的 Electron 应用

SQ还给模型增加一点挑战:

让棋子具备玻璃(glass)和大理石(marble)两种材质效果

结果,GPT-5.4完成得非常丝滑逼真:



SQ总结道,GPT-5.4在应用开发方面重点提升了两项能力:

第一,是它使用Computer Use的能力。第二,是它通过图像输入生成高质量网站的能力。

值得注意的是,当我们让模型使Computer Use时,与 5.3 Codex 相比,它不再需要为此启动一个新的环境。它更像是人类通过界面与电脑交互的方式



同时,在一些让模型执行测试任务的场景中,token 使用量下降了三分之二,这一点非常令人兴奋。

更好用的“Thinking”:思考可见,实时校准

在 ChatGPT 中,GPT-5.4 Thinking 现在支持在生成过程中展示思考计划,这里添加了一项最酷的功能:中途修正:——不用等模型跑完再重新来过。

当你在屏幕上看到它的思考偏离了你的预期时,你可以直接通过指令“掰正”它。就像在指导一个实习生,你不需要等他做完整套错误的 PPT,在他构思大纲时就能介入。

价格略涨、5.2即将退伍

在 ChatGPT 中,GPT-5.4 Thinking 将 定价方面,API 输入价格从 GPT-5.2 的每百万 token 1.75 美元涨至 2.50 美元,输出价格从 14 美元涨至 15 美元。

GPT-5.4 今天起向 ChatGPT Plus、Team、Pro 用户开放,取代 GPT-5.2 Thinking 成为默认推理模型,GPT-5.2 Thinking 将在三个月后于 2026 年 6 月 5 日正式退役。

个人用户:Plus、Team 和 Pro 用户今日起即可体验 GPT-5.4 Thinking。

企业用户:专属的GPT-5.4 Pro提供极限性能,专门对付最难的骨头。

API 价格:GPT-5.4 相比 5.2 略有提价,但由于Token 效率显著提升(解决同样问题用的字数更少了),总成本在很多场景下反而更低。

模型

输入 (每百万 Token)

输出 (每百万 Token)

GPT-5.4

$2.50

$15

GPT-5.4 Pro

$30

$180

AI 正在进入数字员工时代

如果总结 GPT-5.4 的核心变化,其实只有一句话:AI 正在从助手变成员工。

如果说 GPT-4 开启了对话时代,GPT-5.4 则正式宣告了“AI 数字员工”时代的到来。它不再仅仅是回答问题,而是开始接管电脑,处理那些枯燥、重复、高压的专业文档。

大模型终于在Computer User上做到快速准确地自动完成专业的复杂任务了!

自动完成市场调研、自动生成商业计划书、自动开发软件、自动执行网页任务……

Sam 在 X 上非常兴奋地表示:我认为人们会喜欢它!

只能说,大家今后的职场格局,要变天了!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两会刚刚开始,就传来4个消息,对于老百姓来说都是好消息

两会刚刚开始,就传来4个消息,对于老百姓来说都是好消息

触摸史迹
2026-03-07 15:52:33
绝了绝了!塔图姆医学奇迹!首秀大战NBA状元郎

绝了绝了!塔图姆医学奇迹!首秀大战NBA状元郎

篮球实战宝典
2026-03-06 17:29:14
霍震霆也没想到,46岁的霍启刚,会在两会上凭一个举动给霍家长脸

霍震霆也没想到,46岁的霍启刚,会在两会上凭一个举动给霍家长脸

小丸子的娱乐圈
2026-03-06 14:55:09
出大事了,伊朗准备同归于尽,沉睡小组将激活,特朗普计划泡汤了

出大事了,伊朗准备同归于尽,沉睡小组将激活,特朗普计划泡汤了

井普椿的独白
2026-03-07 14:40:30
意外!姜至鹏红牌属于误判?权威结论来了,生日夜染红引发热议

意外!姜至鹏红牌属于误判?权威结论来了,生日夜染红引发热议

罗掌柜体育
2026-03-07 06:00:06
打仗几乎没赢过,封赏几乎没断过,死后还能进太庙

打仗几乎没赢过,封赏几乎没断过,死后还能进太庙

小豫讲故事
2026-03-05 06:00:03
全国人大代表戴茵:建议加强对电信运营商扣费监管,加强“免密支付”“自动续费”业务的安全管理,不对70岁以上老人开“自动续费”等功能

全国人大代表戴茵:建议加强对电信运营商扣费监管,加强“免密支付”“自动续费”业务的安全管理,不对70岁以上老人开“自动续费”等功能

潇湘晨报
2026-03-06 15:26:42
医生总结:人去世前1年,身体一般会发出5个预警信号

医生总结:人去世前1年,身体一般会发出5个预警信号

医学原创故事会
2026-03-07 10:42:10
偷鸡不成蚀把米!以为能“扳倒”薛之谦,自己却先被扒了个底朝天

偷鸡不成蚀把米!以为能“扳倒”薛之谦,自己却先被扒了个底朝天

八卦南风
2026-03-04 12:18:44
62亿被执行压顶!王健林再卖上海万达,3年已清仓超80座广场

62亿被执行压顶!王健林再卖上海万达,3年已清仓超80座广场

潘殤旅行浪子
2026-03-05 17:00:19
曾有个很流行的日本谣言:质量好的留在日本,等外品的垃圾卖中国

曾有个很流行的日本谣言:质量好的留在日本,等外品的垃圾卖中国

章哥说买房
2026-03-05 12:17:42
2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

猫叔东山再起
2026-02-02 11:00:09
下一个闫学晶?39岁何洁泪崩:辞掉保姆司机,独自养4娃累到脱相

下一个闫学晶?39岁何洁泪崩:辞掉保姆司机,独自养4娃累到脱相

阿讯说天下
2026-03-07 15:53:29
泽连斯基:美国与俄罗斯竟给出相同的劝降——想停战就放弃顿巴斯

泽连斯基:美国与俄罗斯竟给出相同的劝降——想停战就放弃顿巴斯

老马拉车莫少装
2026-02-22 12:25:15
冲破40亿,2026年票房全球第一,《飞驰人生3》密钥确定延期

冲破40亿,2026年票房全球第一,《飞驰人生3》密钥确定延期

白公子探剧
2026-03-07 16:03:14
国家发展改革委主任郑栅洁:预计今年GDP增量超过6万亿元!安排更多的政策和资金,更好地释放消费潜力

国家发展改革委主任郑栅洁:预计今年GDP增量超过6万亿元!安排更多的政策和资金,更好地释放消费潜力

每日经济新闻
2026-03-06 20:13:05
全国人大代表霍启刚:希望在中小学推广冰雪课程,每学年不少于8课时

全国人大代表霍启刚:希望在中小学推广冰雪课程,每学年不少于8课时

红星新闻
2026-03-06 17:00:13
美军阵亡士兵遗体继续在中东被发现

美军阵亡士兵遗体继续在中东被发现

碳基生物关怀组织
2026-03-03 23:37:09
曝特斯拉已清空加拿大Model 3库存,将待售美制车型全部运回美国

曝特斯拉已清空加拿大Model 3库存,将待售美制车型全部运回美国

IT之家
2026-03-06 23:18:29
一碗“剥皮蓝莓”,让宝妈努力被全网嘲笑:不仅学历低,认知更低

一碗“剥皮蓝莓”,让宝妈努力被全网嘲笑:不仅学历低,认知更低

妍妍教育日记
2026-03-05 19:58:32
2026-03-07 17:00:50
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
361文章数 6489关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗总统:绝不可能无条件投降 向邻国表示歉意

头条要闻

伊朗总统:绝不可能无条件投降 向邻国表示歉意

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

周杰伦田馥甄的“JH恋” 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

教育
房产
旅游
家居
军事航空

教育要闻

教育部部长怀进鹏:我国义务教育达高收入国家平均水平 #我国义务教育达高收入国家平均水平#2026全国...

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

旅游要闻

警报声中的归途:一个义乌老板娘的中东“惊魂”之旅

家居要闻

暖棕撞色 轻法奶油风

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版