2026年3月6日,OpenAI官方正式上线GPT-5.4系列大模型,分为适配日常复杂任务的Thinking版与主打专业场景的Pro版。这一具有里程碑意义的更新,迅速点燃全球开发者社区的热情,作为OpenAI首次将前沿推理、编码能力与智能体功能深度融合的核心产品,GPT-5.4凭借多模态能力的突破性提升,重新界定AI与人类的协作边界,推动人工智能从“被动响应”向“主动执行”加速迈进。
![]()
核心升级:多模态能力突破,多项指标赶超人类水平
GPT-5.4最具突破性的升级,集中在多模态能力的全面升级,尤其在原生计算机操控、视觉感知及专业任务处理三大领域实现关键性突破,多项权威基准测试指标成功赶超人类平均水平。该模型无需额外搭载第三方工具,仅通过截图识别与键盘鼠标指令,就能完成跨应用的复杂操作,大幅优化了AI与计算机的交互逻辑。
在多项权威基准测试中,GPT-5.4表现突出:OSWorld-Verified桌面操作基准测试中,其成功率达到75.0%,较前代GPT-5.2提升28个百分点,首次超越人类平均水平(72.4%);Online-Mind2Web网页操作测试中,成功率高达92.8%,显著优于ChatGPT Atlas智能体模式的70.9%。此外,其MMMU-Pro视觉理解测试成功率达81.2%,OmniDocBench文档解析平均错误率降至0.109,较前代均有大幅提升。
与此同时,GPT-5.4新增“思考过程预览”功能,可提前展示自身推理逻辑,方便用户及时调整需求;支持100万tokens的上下文窗口(可理解为AI能同时处理的文本长度),助力智能体高效完成长周期任务,进一步拓宽了多模态技术的应用场景。
里程碑价值:AI从“辅助工具”向“数字员工”升级
GPT-5.4的正式发布,不仅是OpenAI发展历程中的重要节点,更标志着全球AI产业正式迈入“全能协作”的全新阶段。与前代模型“能力碎片化”“需外挂工具才能实现复杂操作”的局限不同,该模型将推理、编码、智能体三大核心能力深度整合,定位为“可独立完成各类真实工作的AI数字员工”,实现了从“对话交互”到“落地执行”的模式升级。
在专业领域,GPT-5.4的表现已接近人类专家水平:GDPval基准测试中,83.0%的项目达到行业专业标准,较前代提升12个百分点;投行级电子表格建模平均得分87.3%,其生成的演示文稿获得68.0%评审者的认可。同时,该模型的单个陈述错误率下降33%,有效改善了前代模型“幻觉现象突出”的行业痛点。
OpenAI相关负责人表示,GPT-5.4的迭代核心是“让AI更贴合人类需求、更易落地应用”,其原生集成的多元能力,将推动AI技术在金融、法律、设计等多个领域实现规模化落地。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.