网易首页 > 网易号 > 正文 申请入驻

世界还在为“龙虾”狂欢,“AI操作系统”战争已悄然打响

0
分享至

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议


OpenAI明里暗里预热了很久的GPT-5.4,终于在上周五正式亮相了。它的能力提升自不必说,但有意思的是,这次发布的新版本,和当下爆火的应用“龙虾”(OpenClaw),有着剪不断的关联。而这一切的核心,就藏在OpenAI官方介绍中反复强调的一个关键能力上:“Computer-Use”(计算机使用)

在展开之前,我们先亮出核心观点,也是本文想要传达的主旨:透过GPT-5.4,我们可以看到,OpenAI正在打造的,早已不是一个更聪明的聊天模型,而是一个全新的“AI操作系统”(AI OS)。

从长上下文、工具调用到原生操控电脑,这一切都是在为这个“操作系统”铺路。当世界还在为OpenClaw的爆火而欢呼,为Agent的概念而兴奋时,OpenAI已经将Agent的核心能力(Computer-Use)内建于模型底层。

世界或许还浑然不知,但我们正站在一个新时代的起点:AI即将从“产品应用”蜕变为“操作平台”。

01

操作系统”的内核:推理+编码+工作流

相比Google的Gemini 精通于世界知识,OpenAI 的ChatGPT系列经常会被定义为“理科生”。

虽然自升级到 GPT-5 以后,它给人提供情绪价值的能力略有减弱,但编程和数学能力仍然极为出色。

这一次,为了让能力溢出的 AI 能够在 Agent 时代顺利落地到具体应用上,GPT-5.4 实现了一项核心技术突破:

将推理、编码、智能体工作流三方面能力整合至单一模型架构之中 。

简单来说,GPT-5.4 更全能了,而且在特定领域的能力也更强了,它不再是一个单一功能的工具,而是一个具备通用能力的“操作系统内核”。

在推理层面,为了更好地落实到应用层面、让模型具备执行复杂任务的能力,OpenAI 特意强化了 GPT-5.4 的上下文理解能力。

面对 100万 token 量级的复杂任务(相当于可以一次性处理整套项目文档或长时财务记录),模型能够整合海量的数据并正确进行信息去重 。对于单条事实声称的错误率相比 GPT-5.2 降低了 33%,在高专业度场景下的输出更加可信。

除此之外,GPT-5.4 已经可以在 CodeX 中设置支持 1M 的上下文窗口,不过需要用户在 config.toml 中手动设置,否则默认仍为 256k。


具体到知识工作,在面向 44 种职业的 GDPval 基准测试中,GPT-5.4 能够在 83% 以上的场景中达到甚至超越行业专家水平 。

相比于 GPT-5.2 的 70.9% 水平,这一提升幅度已经十分显著。不过令人有些疑惑的是,GPT-5.4 的 Pro 版本模型反而表现略逊于 GPT-5.4。(官方解释为 Pro 版本更侧重于极端复杂任务的稳定性,而非通用场景的平均分)

为了更好地让 GPT-5.4 融入人们的实际工作场景,OpenAI 在官方介绍中直观展现了新版本模型在电子表格、文档和幻灯片三个场景的专业级表现:




除此之外,GPT-5.4 取得的显著进步,在金融和法律等高专业度领域也发挥了至关重要的作用。

多家国际机构的反馈显示,新模型在财务建模、合同分析、长周期任务执行中准确率提升的同时,用户与 AI 的交互频次也减少了很多,显著缩短了任务完成时间


针对最受开发者关注的编码场景,GPT-5.4 保持了与 GPT-5.3-Codex 生成同等质量代码的能力,没有显著的提升。不过,新增加的“/fast”模式能够实现约 1.5倍 的token 生成速度

智能体方面,工具调用能力是智能体完成任务的核心,新引入的“工具搜索 (Tool Search)”机制让模型能够在数万个工具的大型生态中按需调用能力,在准确率保持不变的情况下token消耗量惊人地下降了47%

这正是“操作系统”调度底层资源的方式,高效且精准。

02

原生计算机操作:从理解到执行,这就是“操作系统”的界面

AI 的形态已经从大语言模型演进到了智能体,想要实现产品的商业化就必须让 AI 能真正帮人们做事。

于是,全球的AI企业不约而同地将目光放到了用户PC的控制权上。

但是,各种桌面端代理发布一段时间后,下载率和留存率其实都不理想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言,也有很多人不愿意单独下载一个桌面端代理软件 。

大家早已习惯和 AI(大语言模型)聊天,却还没适应让 AI(智能体代理)接管电脑。

于是,OpenAI想出了一个天才般的点子:让用户每天都在用的大模型操控电脑,不用专门下载安装。

于是,GPT-5.4 顺理成章地成为了第一个具备原生计算机操作能力的通用模型 。

原理其实并不复杂,它能够根据屏幕截图发出鼠标键盘指令,也可以通过 Playwright 等库编写代码来直接操作软件系统 。

相比于需要专门训练才能使用的 PC 端代理助手不同,GPT-5.4 选择将操控电脑的能力直接内建于通用架构之中,开发者在同一模型中即可无缝切换推理、编码或执行任务。正如“操作系统”天然拥有底层硬件(键鼠、屏幕)的驱动一样。

一提到操控电脑,那安全问题就不可回避。

GPT-5.4 的行为可通过开发者的输入进行精细化调节,以此适应不同应用场景的需求 。

为了确保安全,开发者可以配置自定义的安全确认策略,根据任务风险等级设置不同的操作确认机制

数据查询、代码编写等低风险任务设置成自动执行,资金操作、文件删改则必须人工确认,既能保证系统安全,又能提升工作流的执行效率。


在 OSWorld-Verified 基准测试中,GPT-5.4 实现了 75% 的成功率,超越人类基准(72.4%) 的同时,大幅领先于前代 GPT-5.2 的 47.3% 水平,足以证明新模型在 PC 端任务场景中的实用和可靠 。

而在浏览器自动化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 测试中,依靠截图为主的方法分别得到 67.3% 和 92.8% 的成功率。

这就意味着,模型即便不访问网页底层架构,仅凭视觉信息即可完成复杂的网页交互任务,这主要归功于底层视觉感知能力的系统性提升。

传统多模态领域的提升相对较小,MMMU-Pro 视觉理解与推理测试中,模型的准确率从 79.5% 提升至 81.2%;但对于结构化信息的识别能力则显著提升,模型在 OmniDocBench 文档解析基准测试中的平均错误率从 0.140 降至 0.109 。

也就是说,模型更善于处理复杂的 PDF、扫描文档等工作环境中常见的文件类型,不会像以前一样一遇到表格和插图就束手无策。

针对高密度的界面和精细操作的需求,GPT-5.4 新增的“original”图像输入级别支持最高 1024 万像素的全保真感知。

根据用户反馈,模型在处理企业级 ERP 系统、财务报表或工程设计软件等复杂界面时,高分辨率模式下的界面元素定位准确率和点击操作成功率都有显著提升。

03

实际测试:操作系统之战,从一张昂贵入场券开始

在这份官方介绍中,OpenAI 试图用大量基准测试的跑分结果和知名机构的专业评价来证明模型能力之强大。

尽管人们普遍不太信任基准测试的分数,但几项实际测试的结果却证明了 OpenAI 所言非虚。

首先是 Artificial Analysis 的评测榜单,如预想一般,智能程度、编码能力、代理能力同时登顶:




如果这还不足够具有说服力,那还可以看看 X 平台上的一项综合性测试:



原视频链接:
https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ

这是 X 平台上用户 @Angaisb_ 用 GPT-5.4 编写的 Minecraft 游戏,无论是主视角的行动逻辑(奔跑、跳跃、搭建),还是游戏中方块的材质和美观程度,几乎都无可挑剔。

一个 demo 中展示出的内容,已经与 Minecraft 初期版本的质量相差无几。

由此可见,GPT-5.4 的功能是实打实的强大,也确实具备相当高的实际价值。

但俗话说得好,一分钱一分货,如此强大的功能自然意味着极其高昂的费用。


相比 GPT-5.2,价格涨幅相当惊人,甚至有用户在模型刚发布后的几个小时内表示,仅仅是打了个招呼问了个问题,几百美元就不翼而飞了 。

如此强大的能力和高昂的定价,似乎与 OpenAI 官方定义的“能力溢出”有些自相矛盾。

如今,OpenClaw 带动了 token 成本极其低廉的国产大模型爆火,GPT 系列产品已经跌出使用量排行榜的前十,为何 OpenAI 还敢给 GPT-5.4 定下如此高的价格?

算力资源的紧张自然不必多说,但更深层的答案或许藏在 OpenAI 近期商业化策略的微妙转向之中。

据悉,OpenAI 正在缩减 ChatGPT 应用内的直接购买方案,不再将聊天界面作为闭环交易的核心场景,而是优先支持外部应用处理购买行为 。

这表明,OpenAI 正在从“直接面向消费者变现”转向“通过生态环境间接获利”。

OpenAI 将 GPT-5.4 定位为专业的基础设施,通过能力溢价筛选出高价值的客户;而普通用户的变现需求,则交给 Notion、Cursor 等集成 ChatGPT 能力的第三方生态来承接,无需直接承担高昂的 API 成本即可通过合作伙伴的产品间接体验模型能力 。

而熟悉桌面智能代理的朋友可能会注意到,GPT-5.4 的原生计算机操作能力其实与 OpenClaw 的思路高度相似:AI 需要看懂界面、操作软件、完成任务。

不过,GPT-5.4 更进一步,让用户跳过下载安装和配置底层大模型等无法省略的步骤,直接体验“开箱即用”,试图取代当下这款最潮流的智能代理产品 。

但这并非易事。若要取代 OpenClaw,OpenAI 要么解决 Agent 代理快速消耗 token 的问题,要么降低 token 成本。而目前看来,前者的希望会更大一些。

总体来看,OpenAI 的选择已经十分清晰:用高定价筛选高价值客户,用生态合作和无门槛产品覆盖大众市场,用效率优化证明“贵有贵的道理”。

但对于普通用户来说,最好的策略仍然是:保持关注、理性评估、按需选择。不必急于直接购买高价 API,极致的性价比才是 Agent 时代的方向。

然而,我们最不能忽视那个正在发生的、静悄悄的革命:OpenAI正在打造的,是一个以“Computer-Use”为核心,整合了长上下文、工具调用、推理与编码能力的“AI操作系统”。

当这个“操作系统”逐渐成熟,今天关于价格和OpenClaw的讨论,都将只是历史的注脚。世界还在为某一款应用的爆火而狂欢,但真正的操作系统之战,已经打响了。

转载开白 | 商务合作 | 内容交流
请添加微信:jinduan008
添加微信请备注姓名公司与来意


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
保定一小店售卖咸菜丝烧饼意外爆火,排队人数太多店铺宣布暂停营业,店主:流量太大了,我们承接不住,也担心影响烧饼品质

保定一小店售卖咸菜丝烧饼意外爆火,排队人数太多店铺宣布暂停营业,店主:流量太大了,我们承接不住,也担心影响烧饼品质

极目新闻
2026-03-26 22:43:02
以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

网络易不易
2026-03-26 15:05:07
郑雪峰任深圳应急管理局局长,马鸿雁任宝安区人大常委会主任

郑雪峰任深圳应急管理局局长,马鸿雁任宝安区人大常委会主任

南方都市报
2026-03-27 18:48:05
毛岸英葬在朝鲜,碑文引毛主席“不满”:少写了一个人的名字

毛岸英葬在朝鲜,碑文引毛主席“不满”:少写了一个人的名字

历史点行
2026-03-25 18:16:35
荷媒:世界杯正赛队库拉索面对中国表现平平,没展示出任何竞争力

荷媒:世界杯正赛队库拉索面对中国表现平平,没展示出任何竞争力

懂球帝
2026-03-27 20:30:12
金价、银价急跌

金价、银价急跌

山东经济广播
2026-03-27 11:43:07
《奔跑吧14》明星用餐后剩菜遭围挡,餐厅道歉:竟发现虫子!

《奔跑吧14》明星用餐后剩菜遭围挡,餐厅道歉:竟发现虫子!

手工制作阿歼
2026-03-27 20:46:46
入选了!恭喜郇斯楠!预测NBA首轮第12号秀

入选了!恭喜郇斯楠!预测NBA首轮第12号秀

生活新鲜市
2026-03-27 10:48:57
台积电:防了大陆几十年,没想到副总是美国间谍,核心机密被卷走

台积电:防了大陆几十年,没想到副总是美国间谍,核心机密被卷走

掉了颗大白兔糖
2026-03-22 06:49:32
邵佳一冷静回应开门红:不能说明啥!最大收获是自信 点名表扬2人

邵佳一冷静回应开门红:不能说明啥!最大收获是自信 点名表扬2人

我爱英超
2026-03-27 17:29:51
地天地板!今日最惨股:开盘跌停,盘中涨停,收盘又跌停!

地天地板!今日最惨股:开盘跌停,盘中涨停,收盘又跌停!

有范又有料
2026-03-27 17:23:17
华为签约高校学生人数排名!西电稳居第一,华南理工成为“黑马”

华为签约高校学生人数排名!西电稳居第一,华南理工成为“黑马”

教育导向分享
2026-03-27 15:01:03
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
名单再度变天!王皓换掉失常向鹏,二十岁新星获重用死磕世界杯

名单再度变天!王皓换掉失常向鹏,二十岁新星获重用死磕世界杯

刘哥谈体育
2026-03-27 07:48:55
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
日本被踢出局,仅仅48小时,高市就开始报复:拿中日关系撒气

日本被踢出局,仅仅48小时,高市就开始报复:拿中日关系撒气

清欢百味
2026-03-27 07:26:16
巧合还是阴谋?美国媒体怀疑:特朗普正在利用伊朗战争操纵市场

巧合还是阴谋?美国媒体怀疑:特朗普正在利用伊朗战争操纵市场

探源历史
2026-03-27 20:29:22
30+10+7+2+2!我也是全明星!火箭错过的天才,如今发展远超小贾

30+10+7+2+2!我也是全明星!火箭错过的天才,如今发展远超小贾

球盲姐
2026-03-27 16:34:03
于东来牵手妻子登山,不坐豪车不请保镖,怀里的老婆才是真宝藏

于东来牵手妻子登山,不坐豪车不请保镖,怀里的老婆才是真宝藏

嘴角上翘的弧度
2026-03-22 07:26:47
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
2026-03-27 21:23:00
锦缎研究院 incentive-icons
锦缎研究院
专注上市公司价值发现与传播
2486文章数 10824关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

美为应对中国首次部署"无人舰队" 不料在实战区掉链子

头条要闻

美为应对中国首次部署"无人舰队" 不料在实战区掉链子

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

艺术
数码
本地
时尚
公开课

艺术要闻

张大千:形成于未画之先,神留于既画之后

数码要闻

哈趣Ace1:百元价位千元体验,IP67防护+杜比级声场的全能耳夹耳机

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

女友BELLA+封面 | 张哲旭&弭金:寻找与契合

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版