OpenAI周四发布了其“迄今最强编程代理”GPT-5.3-Codex,并将其发布时间精确地与Anthropic的旗舰升级模型Claude Opus 4.6同步,此举被视为企业级软件开发领域“AI编程大战”的正式打响。GPT-5.3-Codex在多项基准测试中表现出色,成绩显著领先,并且首次参与自身训练与部署。OpenAI的目标是将Codex从编程助手扩展为几乎能完成开发者和专业人士在电脑上所有任务的通用代理,从而进军更广泛的企业生产力软件市场。
OpenAI发布了GPT-5.3-Codex,称其为最强的编程代理,并战略性地选择与Anthropic发布Claude Opus 4.6同时进行,标志着两家公司在企业级软件开发市场的“AI编程大战”进入白热化阶段。
GPT-5.3-Codex是OpenAI首个在其自身创建过程中发挥关键作用的模型,Codex团队使用早期版本进行训练调试、部署管理和结果诊断,被视为AI发展的重要里程碑。
在真实的软件工程评测SWE-Bench Pro上取得57%的成绩。在衡量终端操作能力的Terminal-Bench 2.0上获得77.3%的得分,较上一代提升13个百分点,并大幅超越Anthropic Opus 4.6的65.4%。在要求可视化桌面环境中完成任务的OSWorld上得分64%。
新模型在完成同等任务时所需的token数量不到上一代的一半,同时单个token的推理速度提升超过25%。
OpenAI将GPT-5.3-Codex定位为从一个仅能编写和审查代码的代理,进化为几乎可以完成开发者和专业人士在电脑上所有任务的代理,包括调试、部署、撰写文档、用户研究、数据分析等,目标直指更广泛的企业生产力软件市场。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.