![]()
周四,OpenAI发布了首个在非英伟达硬件上运行的生产级AI模型,在Cerebras芯片上部署了全新的GPT-5.3-Codex-Spark编程模型。该模型以每秒超过1000个Token的速度生成代码,据报告比其前代产品快约15倍。作为对比,Anthropic的Claude Opus 4.6在新的高价快速模式下,速度约为标准模式68.2 Token/秒的2.5倍,尽管它是比Spark更大更强的模型。
"Cerebras一直是我们出色的工程合作伙伴,我们很高兴能将快速推理添加为新的平台能力,"OpenAI计算部门负责人Sachin Katti在声明中表示。
Codex-Spark是一个研究预览版,面向ChatGPT Pro订阅用户(每月200美元)通过Codex应用、命令行界面和VS Code扩展提供。OpenAI正在向精选设计合作伙伴推出API访问。该模型配备128,000个Token的上下文窗口,发布时仅处理文本。
此次发布基于OpenAI本月早些时候推出的完整GPT-5.3-Codex模型。完整模型处理重量级智能体编程任务,而OpenAI将Spark调整为速度优先而非知识深度。OpenAI将其构建为纯文本模型,专门针对编程进行调优,而不是处理更大版本GPT-5.3所承担的通用任务。
在评估软件工程能力的两个基准SWE-Bench Pro和Terminal-Bench 2.0上,据OpenAI称,Spark的表现优于较老的GPT-5.1-Codex-mini,同时以更短时间完成任务。该公司未分享这些数据的独立验证。
据传闻,Codex的速度一直是痛点;当Ars在12月测试四个AI编程智能体构建扫雷游戏克隆时,Codex耗时约为Anthropic Claude Code的两倍才产生可用游戏。
编程智能体军备竞赛
从背景来看,GPT-5.3-Codex-Spark每秒1000个Token代表着比OpenAI通过自有基础设施提供的任何产品都有相当大的飞跃。根据Artificial Analysis的独立基准测试,OpenAI在英伟达硬件上最快的模型远低于这个标准:GPT-4o约为每秒147个Token,o3-mini约为167个,GPT-4o mini约为52个。
但按Cerebras标准,每秒1000个Token实际上是适中的。该公司在Llama 3.1 70B上测得每秒2100个Token,在OpenAI自己的开放权重gpt-oss-120B模型上报告每秒3000个Token,这表明Codex-Spark相对较低的速度反映了更大或更复杂模型的开销。
AI编程智能体度过了突破性的一年,OpenAI的Codex和Anthropic的Claude Code等工具在快速构建原型、界面和样板代码方面达到了新的实用水平。OpenAI、谷歌和Anthropic都在竞相推出更强大的编程智能体,延迟已成为决定胜负的关键;编程速度更快的模型让开发者迭代更快。
面对Anthropic的激烈竞争,OpenAI一直在快速迭代其Codex产品线,在CEO萨姆·阿尔特曼因谷歌的竞争压力发出内部"红色警报"备忘录后,于12月发布了GPT-5.2,然后在几天前推出了GPT-5.3-Codex。
摆脱英伟达依赖
Spark更深层的硬件故事可能比其基准分数更重要。该模型运行在Cerebras的Wafer Scale Engine 3上,这是一个餐盘大小的芯片,Cerebras至少从2022年起就围绕它建立业务。OpenAI和Cerebras在1月宣布合作伙伴关系,Codex-Spark是其首个产品成果。
过去一年,OpenAI一直在系统性地减少对英伟达的依赖。该公司在2025年10月与AMD签署了大规模多年协议,11月与亚马逊达成380亿美元云计算协议,并一直在设计最终由台积电制造的自定义AI芯片。
与此同时,与英伟达计划中的1000亿美元基础设施协议至今未果,尽管英伟达随后承诺200亿美元投资。路透社报告称,OpenAI对某些英伟达芯片在推理任务上的速度不满,而这正是OpenAI设计Codex-Spark要处理的工作负载类型。
无论底层使用哪种芯片,速度都很重要,尽管可能以准确性为代价。对于整天在代码编辑器中等待AI建议的开发者来说,每秒1000个Token可能不再像精心驾驶拼图锯,而更像运行开料锯。只是要小心你在切什么。
Q&A
Q1:GPT-5.3-Codex-Spark是什么?有什么特点?
A:GPT-5.3-Codex-Spark是OpenAI发布的专门用于编程的AI模型,运行在Cerebras芯片上。它最大的特点是生成代码速度极快,每秒超过1000个Token,比前代产品快约15倍。该模型专门针对编程任务调优,优先考虑速度而非知识深度。
Q2:Codex-Spark的速度相比其他AI编程工具如何?
A:Codex-Spark每秒1000个Token的速度远超OpenAI之前的模型,比如GPT-4o约为每秒147个Token。相比Anthropic的Claude Opus 4.6快速模式也有明显优势。不过按Cerebras芯片的标准这个速度还算适中,该公司在其他模型上曾测得更高速度。
Q3:为什么OpenAI要使用Cerebras芯片而不是英伟达?
A:OpenAI正在系统性地减少对英伟达的依赖。据报告,OpenAI对某些英伟达芯片在推理任务上的速度不满意。Cerebras的Wafer Scale Engine 3芯片在推理速度上表现更好,正好满足快速编程任务的需求,这也是OpenAI与Cerebras合作的重要原因。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.