网易首页 > 网易号 > 正文 申请入驻

100万Token+接管鼠标:GPT-5.4正把AI推向“数字员工”

0
分享至

来源:市场资讯

(来源:钛媒体AGI)


▎长上下文、推理计算与Computer-Use三条技术路线开始汇合,大模型正在从聊天助手演化为可以理解任务并执行工作的AI代理。

作者|硅谷Tech news

编辑|秦聪慧

本文首发于钛媒体APP

如果一个 AI 能够阅读整套项目文档,在复杂问题上进行长时间推理,并且自己操作电脑完成任务,它就不再只是一个聊天机器人。

它更像是一种新的软件形态。

随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro,这种变化正在变得具体。100 万 Token 上下文、推理时计算模式,以及原生计算机操作能力,第一次在同一代模型中同时出现。

当这些能力开始汇合,大模型的角色也在发生转变——从回答问题,转向直接完成工作。

GPT-5.4:一次围绕“执行能力”的模型升级

2026 年 3 月初,硅谷再次进入密集的 AI 发布周期。

在多轮业内传闻之后,OpenAI 推出了 GPT-5.4 系列模型。与过去几次升级主要强化聊天体验或推理能力不同,这一版本的能力组合明显指向一个更实际的目标:让 AI 更直接地参与真实工作流程。


公开信息显示,模型的核心能力包括:最高 100 万 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生计算机操作能力,以及 Tool Search 工具检索机制。这些能力并非单点突破,而是围绕“执行能力”的系统性升级。

在桌面任务基准 OSWorld benchmark 的测试中,模型完成任务的成功率约为 75%,略高于该 benchmark 的人类测试基线约 72%。而在职业任务评估 GDPval benchmark 中,模型在 44 种知识型工作任务中约 83% 的评分进入专家区间。


这些指标本身或许仍需要更多实际验证,但它们指向的趋势非常明确:AI 正在从信息处理工具变成任务执行系统。

长上下文:模型第一次能“读完整个项目”

企业在部署大模型时,一直面临一个结构性限制——上下文窗口。早期模型只能处理有限的信息量,这迫使企业构建复杂的 Retrieval-Augmented Generation(RAG)系统:文档被拆分、向量化、索引,再在查询时重新拼接给模型。

这种架构在过去两年成为 AI 工程的标准方案,但也带来了新的复杂度。数据被切块后,上下文关系容易丢失;检索系统本身也增加了延迟与维护成本。

GPT-5.4 将上下文窗口扩展到 100 万 Token。这意味着模型在单次任务中理论上可以处理完整代码库、长期财务记录,甚至整个项目文档集合。

RAG 并不会消失,因为权限控制、实时数据更新以及索引效率仍然是企业系统不可替代的一部分。但在很多分析型任务中,超长上下文确实降低了对复杂检索架构的依赖。

更重要的是,模型开始具备一种过去难以实现的能力:理解完整项目,而不是零散信息片段。

Computer-Use:AI 开始直接操作软件

如果说长上下文改变的是理解能力,那么 Computer-Use 改变的则是执行能力。

在这一模式下,模型可以通过视觉理解软件界面,并模拟鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再只通过 API 调用系统,而是可以像用户一样直接操作软件界面。

这一变化对企业自动化领域尤其重要。过去二十年,大量企业流程自动化依赖 Robotic Process Automation(RPA)系统,其核心逻辑是通过脚本执行固定步骤,例如录入数据或在系统之间复制信息。

而具备视觉理解与规划能力的 AI,则可能承担更复杂的任务,例如:

  • 跨系统整理数据

  • 执行多步骤后台流程

  • 在陌生界面中寻找操作路径

RPA 并不会立即被取代,但 AI 代理已经开始进入它们长期占据的自动化领域。

推理时计算:AI 学会“慢思考”

GPT-5.4 的另一项关键变化,是 Thinking 模式。这一模式并不是简单扩大模型规模,而是在推理阶段投入更多计算资源,从而提高复杂任务的可靠性。

这代表着大模型发展的一条重要路线:推理时计算(compute-at-inference)。过去十年,模型能力主要依赖训练阶段的大规模数据与算力,但随着预训练收益逐渐递减,越来越多公司开始把算力投入到推理阶段。

类似趋势也出现在其他 AI 公司,例如 Anthropic 的深度推理模式,以及 Google 在复杂任务中的推理系统。

这种模式的特点很明显:响应时间更长、计算成本更高,但复杂任务的成功率明显提高。在法律分析、财务建模或复杂决策任务中,这类“慢思考 AI”反而更接近真实的专业工作方式。

Tool Search:被低估的架构升级

相比百万 Token 与 computer-use,Tool Search 可能是这次发布中最容易被忽视的一项升级。

过去,当模型需要调用工具时,开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间,也增加了 Token 成本。


Tool Search 改变了这一机制:模型可以在需要时检索工具定义,而不是预加载全部工具。

在多工具系统中,这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言,这类架构优化往往比单纯提升模型能力更重要。

因为真正的大规模 AI 应用,通常由几十甚至上百个工具共同组成。

AI 竞争的真正焦点正在改变

如果把这些变化放在一起观察,就会发现 AI 竞争的重心正在发生变化。

过去几年,大模型竞争主要集中在规模、参数与价格。但现在,竞争正在逐渐转向另一件事情:谁能让 AI 真正完成任务。

在这个维度上,不同公司的策略逐渐分化:

  • OpenAI:强调 AI 代理与执行能力

  • Anthropic:强调可靠推理与安全性

  • Google:强调工具生态与云基础设施

这场竞争的终点,很可能不是更聪明的聊天机器人,而是一种新的软件形态。

一种可以理解任务、规划步骤并执行操作的 AI 工作代理。

软件范式正在变化

从更长的上下文,到更强的推理,再到直接操作软件界面,大模型正在同时获得三种能力:理解信息、思考问题、执行操作。

当这三种能力结合在一起时,AI 就不再只是软件的一个接口,而可能逐渐成为新的软件平台。

在这种结构下,大模型不仅会改变搜索、写作或编程工具,还可能重新塑造企业软件的基本形态。

问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国外战火纷飞,国内喊打喊杀:我们怎么了?

国外战火纷飞,国内喊打喊杀:我们怎么了?

行者殷涛
2026-03-05 17:22:36
肯德基终于听懂人话了

肯德基终于听懂人话了

餐观局
2026-03-04 19:44:08
96小时内,哈梅殡葬准时举行,普京去不了现场,中国做出重大承诺

96小时内,哈梅殡葬准时举行,普京去不了现场,中国做出重大承诺

小嵩
2026-03-06 02:07:55
挺谁是个人自由,但你不能赤裸裸编造谎言去挺谁啊!

挺谁是个人自由,但你不能赤裸裸编造谎言去挺谁啊!

细雨中的呼喊
2026-03-06 15:04:57
伊朗新一轮反击打响,不到24小时,以本土告急,特朗普求31国救场

伊朗新一轮反击打响,不到24小时,以本土告急,特朗普求31国救场

黑鹰观军事
2026-03-06 14:12:44
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

阿讯说天下
2026-02-19 23:47:31
矛盾升级!张兰坦言有1万个儿子,谈小菲身世,自曝离婚内幕

矛盾升级!张兰坦言有1万个儿子,谈小菲身世,自曝离婚内幕

离离言几许
2026-03-06 14:52:13
侄子入股我公司赚了600万,他拿走600万一分没给我留,我没说话

侄子入股我公司赚了600万,他拿走600万一分没给我留,我没说话

小秋情感说
2026-03-06 14:11:09
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
看到段曦和张杰旧照才懂 谢娜18年不澄清被扇耳光 从来不是大度

看到段曦和张杰旧照才懂 谢娜18年不澄清被扇耳光 从来不是大度

草莓解说体育
2026-03-05 16:45:31
伊朗强援已到!以色列集结10万大军,关键时刻,普京对中国做承诺

伊朗强援已到!以色列集结10万大军,关键时刻,普京对中国做承诺

咣当地球
2026-03-02 17:00:31
巴黎偶遇陈飞宇!素颜嘴凸明显黑眼圈抢镜,吃麻辣烫比耶好接地气

巴黎偶遇陈飞宇!素颜嘴凸明显黑眼圈抢镜,吃麻辣烫比耶好接地气

青橘罐头
2026-03-06 14:52:33
詹姆斯:妈妈生我时只有16岁 我的动力是给她买个带储藏室的房子

詹姆斯:妈妈生我时只有16岁 我的动力是给她买个带储藏室的房子

罗说NBA
2026-03-06 07:04:36
让领导先走:当战争可以“精准”到一个人

让领导先走:当战争可以“精准”到一个人

潮汐志
2026-03-01 19:47:21
500亿美金一口吞!这不是上市,这是马斯克在抢劫全人类的钱包!

500亿美金一口吞!这不是上市,这是马斯克在抢劫全人类的钱包!

通鉴史智
2026-03-06 12:03:15
不止魅族,这10个品牌已“全剧终”,全是我们的青春啊!

不止魅族,这10个品牌已“全剧终”,全是我们的青春啊!

小蜜情感说
2026-03-04 14:20:13
伊朗反击美国,国际局势大乱,中国收复台湾的时机到了吗?

伊朗反击美国,国际局势大乱,中国收复台湾的时机到了吗?

心灵短笛
2026-03-05 14:16:51
北京南城拆迁名单

北京南城拆迁名单

石辰搞笑日常
2026-03-06 06:44:40
哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

哈梅内伊有多少资产?或许他才是世界首富,李嘉诚都远不及他

张老师担扑
2026-03-02 22:51:06
美国务卿要“放蒋出笼”对付伊朗

美国务卿要“放蒋出笼”对付伊朗

远方青木
2026-03-05 00:13:22
2026-03-06 15:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2381502文章数 5700关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

房产
本地
健康
时尚
公开课

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

转头就晕的耳石症,能开车上班吗?

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版