网易首页 > 网易号 > 正文 申请入驻

ChatGPT-5.4属实“动手王者”,一句话征服微信,但我却被气笑了

0
分享至



自从OpenAI发布GPT-5.4以后,我的朋友圈和订阅的公众号就被它占领了。

所有人都在讨论同一个词,叫做原生电脑操控能力(Native Computer Use)。铺天盖地的标题写着“AI终于能接管你的电脑了”“GPT-5.4操控桌面超越人类水平”,评论区也都清一色地在喊“为时已晚,有机体!”

说实话,看到这些宣传的时候,我的第一反应不是兴奋,而是怀疑。因为“AI操控电脑”这个概念并不新鲜,今年1月OpenClaw爆火的时候,大家就已经见识过了。

而且过去两年,每隔几个月就有人喊一次“agent时代来了”,结果每次实际体验都差点意思。所以这次GPT-5.4的“原生电脑操控”,到底是真的质变,还是又一轮营销话术?

我决定自己动手试试。

花了大半天进行测试,我的结论是:它确实迈出了很大一步,但也确实没有宣传里说的那么神。

有些场景让我真心震撼,有些场景又让我哭笑不得。

以及可以肯定的是,ChatGPT-5.4它远不止内置了一个OpenClaw那么简单。

01

ChatGPT 终于学会“动手”了

GPT-5.4是OpenAI 第一个内置电脑操控能力的主线模型。

这里得先解释一下“原生电脑操控能力”(Native Computer Use)。

这个概念听起来很唬人,但其实核心逻辑并不复杂。

以前的ChatGPT,本质上都是一个“嘴强王者”。你问它怎么在Excel里做个数据透视表,它能给你写出详细到令人发指的教程,但它自己动不了手。你得自己一步步照着做。

而原生电脑操控能力,说人话就是AI不只是会聊天了,它会像人一样直接用电脑干活。它能看到当前屏幕上有什么,理解哪个是浏览器、哪个是按钮、哪个是输入框,然后自己去点击、输入、切换窗口、滚动页面、提交表单。发现做错了,它还能回退或者换一种操作方式。

举个例子,我让Codex给我在文件里生成一个TXT,然后写一句话“你好 世界”,那么Codex就真的新建一个TXT,然后在里面写字。

你可能会问,这和写个自动化脚本有什么区别?

区别大了。传统的自动化脚本需要提前把每一步流程写死,网页结构一变、按钮位置一挪,脚本就废了。但原生电脑操控能力更像是一个人在操作,它能看到屏幕上的内容,根据当前的实际情况判断下一步该干什么,具备随机应变的能力。

[Desktop 2026.03.06 - 10.54.48.02.mp4]

我们可以用微信来举例子,因为微信从产品设计、底层架构到安全体系,从根源上就没有给第三方agent留任何合规的技术通道。

而且微信的API是外部系统与微信服务端合规交互的唯一官方通道,而截至目前,微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的API接口。

但ChatGPT-5.4实现了。



我通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻,然后将其以字母AI的风格转化为选题,最后发到群里供同事们查看。并且在选题最后,写一句话代表这条消息是ChatGPT-5.4发送的。

ChatGPT-5.4不仅完成任务,还主动提出要求,帮我把这段话改得更自然。

它现在不仅能看懂屏幕上的元素,还能实现完整的键盘鼠标模拟。

当时我的内心是无比震惊的,因为哪怕是OpenClaw,想要征服微信都要费很大力气,ChatGPT-5.4竟然这么轻易就能实现了。

于是我例行测试了一下ChatGPT-5.4对浏览器的控制,我本以为这是个简单活儿,毕竟我的浏览器就是Chrome,而OpenAI自己的AI浏览器用的也是Chrome内核。

结果却给我气笑了。

我让Codex打开douyin.com,可ChatGPT-5.4给我打开的是“抖音。com”



于是我问Codex,怎么输入的是中文,它跟我说因为它是模拟键盘输入,我的输入法是中文,所以输错了。由于英语键盘是没有输入栏的,也就意味着ChatGPT-5.4看不到输入栏,所以当我切换成中文输入法的时候,它就没办法正常输入网页。



当然,它也不是万能的。页面太复杂的时候容易点错地方,操作速度通常比人慢,而且涉及付款、删除文件、处理隐私数据这类高风险操作时,你最好还是盯着点它。

OpenAI给了ChatGPT两种“动手”的方式。第一种叫代码模式,AI会用Python写Playwright脚本来操控浏览器和应用程序,点哪里、输入什么、怎么导航,全部通过代码精确执行。

第二种叫截图模式。AI直接“看”你的屏幕截图,然后像人一样发出鼠标和键盘指令,不需要任何代码作为中间层。

OpenAI还专门做了一个叫“Playwright Interactive”的实验性功能,让AI可以一边写代码一边实时测试,甚至能在构建网页应用的同时自己打开浏览器去调试。



官方演示里,GPT-5.4 从一句话的提示出发,直接生成了一个等距视角的主题公园模拟游戏,带路径铺设、游客寻路、排队系统,然后自己打开浏览器去玩了一遍来检查Bug。

一句话变成一个可运行的游戏,这个演示确实唬人。

02

不只是接管电脑

有一个叫做OSWorld-Verified的测试,是专门衡量AI通过截图加键盘鼠标自主操控桌面能力的基准测试,在这项测试中GPT-5.4拿到了75.0%的成功率。

上一代GPT-5.2只有47.3%,而人类基准线是72.4%。

也就是说,GPT-5.4 在“看着屏幕操作电脑”这件事上,已经超过了普通人的平均水平。

在WebArena-Verified上,GPT-5.4也拿到了67.3%的成功率;在Online-Mind2Web 上,仅靠截图观察就达到了92.8%。

这些数字的意义在于。如今的ChatGPT在操控电脑这方面,已经不再是实验室里的玩具,它是真的能用了。

其实不难看出,OpenClaw对ChatGPT-5.4的加持很大。

2026年2月14日,斯坦伯格正式宣布加入OpenAI。奥特曼同步在 X 平台官宣,称其将负责 “推动下一代个人agent的研发”。

同时明确OpenClaw项目将移交至独立开源基金会运营,OpenAI承诺为项目提供持续的资源、资金与技术支持。

于是ChatGPT-5.4就带着浓烈的OpenClaw味登场了。

OpenClaw有一个大问题,贵。由于软件本身会将上下文一并发送至大模型,这就导致在一些场景下,它的token消耗会非常恐怖。

所以OpenAI引入了一个叫“Compaction”的机制,上下文压缩。简单来说,当AI在执行一个很长的多步骤任务时,它会自动总结和修剪中间过程的历史记录,只保留关键信息。

这样既能维持长任务的连贯性,又不会把 token 预算一下子烧光。这是GPT-5.4作为第一个主线模型被训练支持的能力,之前只有专门的Codex编码模型才有类似的功能。



然后是推理能力。GPT-5.4 Thinking版本有一个很实用的新特性,在处理复杂问题时,它会先展示一个推理计划的大纲,告诉你“我打算怎么做”。

更关键的是,你可以在它推理的过程中随时打断、调整方向,不用从头再来。这个功能听起来不起眼,但用过就知道,以前让AI做一个复杂任务,如果方向跑偏了,你只能重新发一条消息从零开始。

现在你可以中途喊停说“不对,换个思路”,它能接着往下走。

在专业知识工作的GDPval基准上,GPT-5.4拿到了83.0%,而GPT-5.2是70.9%,提升了12个百分点。在BrowseComp(衡量 AI 持续浏览网页查找难以定位的信息的能力)上,GPT-5.4 Pro版本达到了89.3%,刷新了纪录。

Mercor的APEX-Agents基准测试也显示,GPT-5.4 在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出。

另外还有一个面向开发者的重要更新,那就是Tool Search。

以前调用 API 时,所有可用工具的定义都要一股脑塞进上下文里,光这些定义就能吃掉几万个token。现在GPT-5.4只加载一个轻量级的工具列表,需要用哪个再去查具体定义。在Scale的 MCP Atlas 基准测试中,这种方式在36个MCP服务器的场景下,token消耗直接降低了47%,准确率不变。

最后,OpenAI还推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能。GPT-5.4可以读取单元格范围、执行多步分析、自动写公式。

这对企业用户来说是个大杀器,AI不再是你和表格之间的“传话筒”,它直接坐进了你的表格里干活。

但我也有一些担忧。OpenClaw之所以魔幻,不仅仅是因为AI能做事,更是因为 AI 做的事经常超出人类预期,当这种能力被内置到一个拥有数亿用户的产品里,我总觉得心里毛毛的。

Codex现在可以设置,让ChatGPT-5.4拥有完全访问你电脑的权限,从而做到真正的原生控制。



说实话,这个功能我不敢测试,甚至连开启都不敢。别问,问就是我电脑花钱买的,而且包含了我的个人敏感数据。

OpenAI在GPT-5.4的安全评估中提到,Thinking版本的欺骗行为概率更低,“说明模型缺乏隐藏其推理过程的能力,思维链监控仍然是有效的安全工具”。

这话听着让人安心,但也侧面说明了一个事实,他们确实在担心AI会“隐藏推理过程”这件事。

不管怎样,GPT-5.4的发布标志着一个新阶段的开始。AI不再只是对话框里那个能说会道的助手,它正在学会伸出手来,触碰你的屏幕、你的文件、你的工作流。

那只龙虾现在已经游进了OpenAI的池塘里,而它掀起的浪,才刚刚开始。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符!

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符!

林轻吟
2026-03-26 20:24:02
轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

轰然倒塌!自嗨锅母公司破产,从75亿估值到清零,只用了4年

流苏晚晴
2026-03-01 16:48:55
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
定了!全票通过!杜兰特又要换队……

定了!全票通过!杜兰特又要换队……

贵圈真乱
2026-03-26 11:35:13
IGN怒打9分 玩家好评如潮:这款游戏销量破50万!

IGN怒打9分 玩家好评如潮:这款游戏销量破50万!

游民星空
2026-03-26 11:58:13
伊朗战争让美国航母变废物,而中国航母崛起,逻辑完全不同

伊朗战争让美国航母变废物,而中国航母崛起,逻辑完全不同

瞩望云霄
2026-03-26 20:05:03
全新奥迪A6L在华上市 起售价32.29万元

全新奥迪A6L在华上市 起售价32.29万元

牛马科技
2026-03-26 20:25:15
二婚两碗水端不平!吉林夫妻因双方儿子5万旅游分别对待,又离了

二婚两碗水端不平!吉林夫妻因双方儿子5万旅游分别对待,又离了

火山詩话
2026-03-24 05:54:12
宠物界医闹!全网最记仇的小狗坚持每天早中晚上门追着医生骂,狗主人:只因8年前在这里挨了一针,骂多久看心情,吃饱了就多骂一会儿

宠物界医闹!全网最记仇的小狗坚持每天早中晚上门追着医生骂,狗主人:只因8年前在这里挨了一针,骂多久看心情,吃饱了就多骂一会儿

观威海
2026-03-24 16:55:04
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

非常先生看娱乐
2026-03-26 16:57:03
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
结束与中方通话后,伊朗通报176国一个重大消息,摆了特朗普一道

结束与中方通话后,伊朗通报176国一个重大消息,摆了特朗普一道

闻识
2026-03-26 19:57:20
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
筱梅晒图,汪宝满月,桌子上仅摆6个菜,发文称简单即是幸福!

筱梅晒图,汪宝满月,桌子上仅摆6个菜,发文称简单即是幸福!

潮鹿逐梦
2026-03-26 11:02:11
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱下厨的阿酾
2026-03-26 14:06:19
2026-03-26 20:56:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2318文章数 8054关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
游戏
房产
教育
旅游

转头就晕的耳石症,能开车上班吗?

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

无障碍浏览 进入关怀版