网易首页 > 网易号 > 正文 申请入驻

一天两枚“代码核弹”!OpenAI、谷歌新模型登场,码力进世界前8

0
分享至



1 OpenAI 发布新模型,专为实时编码而生

昨晚,OpenAI正式发布了GPT-5.3-Codex-Spark的研究预览版本。这是一款从 GPT-5.3-Codex 主模型中“裁剪”而来的精简版本,同时也是 OpenAI 首个专门围绕实时编码(real-time coding)场景设计的模型



从定位上看,Codex-Spark 并不是为了替代现有的 Codex,而是补齐其在“即时交互”场景中的短板:在过去,Codex 更擅长长时间运行的复杂任务,而 Codex-Spark 的目标则非常明确——把人与模型之间的交互延迟压缩到接近“无感”的程度。

这一发布同时也是 OpenAI 与 芯片初创企业 Cerebras 合作的重要阶段性成果。为了减少对英伟达芯片的依赖,上个月 OpenAI 签署了一项金额超过 100 亿美元的协议,使用 Cerebras 的硬件以提升其模型的响应速度,而 Codex-Spark 被视为这项合作落地的第一个技术里程碑。

为实时而生:Codex-Spark 的核心是“速度”

在官方定义中,Codex-Spark 是一个“专为实时使用 Codex 而设计的模型”,它支持进行针对性编辑、重塑逻辑或优化界面,并能立即查看结果。这一表述背后,隐含的是对交互方式的重新假设。

在传统的 AI 编码流程中,开发者往往需要等待模型完成一次较完整的推理和生成,再基于结果进行下一轮调整。这种模式在复杂任务中是必要的,但在日常开发中——例如小范围代码修改、逻辑重构、界面样式调整——高延迟本身就成为效率瓶颈。

Codex-Spark 针对的正是这一类高频、碎片化、对即时反馈极度敏感的使用场景。

据 OpenAI 介绍,Codex-Spark 在执行长时间运行的任务方面展现出卓越的优势,无需人工干预即可自主运行数小时、数天甚至数周。借助 Codex-Spark,Codex 现在既支持长时间运行的复杂任务,也支持即时完成工作。

Codex-Spark 在发布时拥有 128k 的上下文窗口,并且仅支持文本。在研究预览期间,Codex-Spark 将拥有独立的速率限制,其使用量不计入标准速率限制。但是,当需求量较高时,用户可能会遇到访问受限或临时排队的情况,因为需要平衡不同用户的可靠性。

OpenAI 还表示,Codex-Spark 针对交互式工作进行了优化,在这种工作环境中,延迟与智能同样重要。用户可以与模型实时协作,在模型运行过程中随时中断或重定向它,并快速迭代,获得近乎即时的响应。由于 Codex-Spark 注重速度,因此其默认工作方式非常轻量级:它只进行最少的、有针对性的编辑,并且除非用户主动要求,否则不会自动运行测试。


提示词:制作一款贪食蛇游戏

编码能力如何?

在评估层面,Codex-Spark 作为一个小型模型,仍然在多个软件工程基准测试中表现突出。

Codex-Spark 特意针对快速推理进行了优化。在 SWE-Bench Pro 和 Terminal-Bench 2.0 这两个评估智能体软件工程能力的基准测试中,GPT-5.3-Codex-Spark 表现出色,且完成任务所需时间远低于 GPT-5.3-Codex。



持续时间估计为以下各项之和:(1)输出生成时间(输出 token ÷ 采样速度),(2)预填充时间(预填充令牌÷预填充速度),(3)工具执行总时间,以及(4)网络总开销。



那么,这样的编程表现是如何实现的?在训练 Codex-Spark 的过程中,OpenAI 意识到模型速度只是实现实时协作的一部分——还需要降低整个请求 - 响应流程的延迟。所以研发团队在框架中实现了端到端的延迟优化,这将使所有模型受益。

在 Codex-Spark 的研发过程中,OpenAI 意识到一个关键问题:模型本身的速度只是实时体验的一部分

真正影响用户感受的,是从客户端发出请求,到第一个可见 token 出现,再到持续生成的整个端到端路径。

因此,OpenAI 对 Codex 的底层架构进行了系统级优化,包括:简化客户端到服务器、以及服务器返回响应的流程、重写推理栈中的关键路径、改进会话初始化机制、引入持久化 WebSocket 连接以及对响应 API 进行针对性优化。

这些改动带来的量化结果包括:

  • 客户端 / 服务器单次往返开销降低80%
  • 每个 token 的处理开销降低30%
  • 第一个 token 的出现时间缩短50%

Codex-Spark 默认启用 WebSocket 路径,而这一通信方式也将在未来逐步成为所有模型的默认配置。

这印证了 Codex-Spark 的核心定位:不是通过更复杂的推理链取胜,而是通过更快的反馈循环提升整体效率

开发者关注的不只是“更快”

OpenAI发布面向实时编码场景的Codex-Spark研究预览版后,在 x 上迅速展开讨论。与官方强调的“超低延迟”和“即时协作体验”相比,社区关注的焦点明显更加集中在一个问题上:在速度大幅提升的同时,模型是否还能维持足够的推理深度与代码质量

从目前的讨论来看,围绕 Codex-Spark 的反馈并不单一,而是呈现出几种具有代表性的声音。

有 x 用户表示:

“真正的问题不仅仅是速度。关键在于它能否在压力下保持质量。如果延迟降低而推理深度没有减少,这将改变日常工作流程。”



还有用户指责 OpenAI 过于关注编码性能,其他性能被忽视了。

“你们把所有注意力都放在代码和那些影响用户体验的广告上,但这并非绝大多数日常用户真正关心的。你们无视 #Keep4o (保留 4o 模型)的声音,就像我们无视你们那些垃圾般的新产品一样。即便你们装作视而不见,我们也不会停止。”

“速度更快”固然很好,但真正的问题是:它能否在速度的同时保持代码质量?

有用户指出,速度快但有缺陷的代码毫无用处。代码速度慢但正确才有用。期待看看 Spark 能否在这两方面都做到最好。



多位用户表达了类似的观点,认为只速度快有什么意义?它至少应该达到 GPT 5.3 编解码器的水平。“否则,你很快就会一无所获”。



2 谷歌更新 Gemini 3 Deep Think,能处理真实科研难题

OpenAI 发新模型的同时,谷歌也没闲着。

谷歌昨晚同步更新了旗下最具研究取向的推理模型——Gemini 3 Deep Think。这次更新并非一次常规能力迭代,而是一次明确面向现代科学研究、工程建模与复杂推理问题的系统性升级。

值得注意的是,去年 9 月加盟谷歌 DeepMind 的清华物理系知名研究者姚顺宇(Shunyu Yao),同样是 Deep Think 新模型的核心参与者之一。



从官方定位来看,Gemini 3 Deep Think 的目标并不是更流畅的对话体验,而是解决那些长期困扰科研人员和工程师的“硬问题”:

这些问题往往缺乏明确的解题路径,不存在唯一正确答案,数据本身也常常不完整、噪声较多,甚至彼此矛盾。

谷歌表示,此次更新是在与大量科学家和研究人员的长期合作基础上完成的,模型的设计思路也明显偏向真实科研与工程实践,而不仅是抽象推理能力的展示。

全新 Deep Think 现已在 Gemini 应用中上线,供 Google AI Ultra 订阅用户使用。此外,我们首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。

Deep Think 访问地址:https://forms.gle/eEF5natXTQimPhYH9

以下是早期测试用户如何使用最新版 Deep Think 的演示:



罗格斯大学的数学家丽莎·卡博内致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。



在杜克大学,王氏实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。DeepThink 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。



谷歌平台与设备部门研发主管、前 Liftware 首席执行官 Anupam Pathak 测试了新的 Deep Think,以加速物理组件的设计。

运用数学和算法的严谨性提升推理能力

在以往的大模型评估体系中,推理能力往往通过标准化问题来衡量:问题定义清晰、目标明确、评价方式单一。

而 Gemini 3 Deep Think 试图应对的,是另一类问题——研究型问题。

这类问题通常具备几个特征:

  • 没有固定模板
  • 没有明确步骤
  • 数据来源复杂且不完备
  • 解题过程本身可能需要不断修正假设

谷歌在技术博客中强调,Deep Think 的更新重点,在于将深厚的科学知识与工程实践中的常识和方法论结合起来,让模型不再停留在理论层面,而是更贴近真实世界的研究流程。

在推理能力的提升上,数学与算法仍然是 Gemini 3 Deep Think 的核心抓手。

早在去年,谷歌就曾展示过专门定制的 Deep Think 版本,在多项高难度推理任务中取得突破,并在国际数学和编程类赛事中达到金牌水平。此次更新,在这一方向上继续向前推进。

根据谷歌披露的数据,升级后的 Deep Think 在多项严苛学术基准测试中刷新了当前水平,包括:

  • 在 Humanity’s Last Exam(“人类的最后考验”)中,在不借助任何外部工具的前提下,取得 48.4% 的成绩。这一基准被认为是专门用于测试前沿模型能力极限的高难度测试。
  • 在 ARC-AGI-2 测试中,Deep Think 取得 84.6% 的成绩,并已通过 ARC Prize Foundation 的官方验证。



  • 在竞技编程平台 Codeforces 上,模型达到了 3455 Elo 的评分区间,这一水平在该平台上已属于极高段位。

从 Gemini Deep Think 3455 的得分来看,其编码能力排名世界第八。



  • 在 2025 年国际数学奥林匹克竞赛的评测中,整体表现达到了金牌水平。



这些结果表明,Deep Think 的提升并非集中在单一任务类型,而是在多种高约束推理环境下保持了稳定表现。

不止于数学:向复杂科学领域扩展

相比以往更多集中在数学与代码推理上的展示,Gemini 3 Deep Think 此次更新明显扩大了能力覆盖范围。

谷歌表示,当前版本的 Deep Think 已经在化学、物理等多个科学领域中展现出显著提升,尤其是在需要跨学科知识和多层次建模的任务中。

在官方披露的测试中:

  • 在 2025 年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试部分,Deep Think 均达到了金牌级别表现。
  • 在评估高等理论物理能力的 CMT-Benchmark 中,模型取得了 50.5% 的分数,显示出其在凝聚态物理等高度抽象领域中的推理潜力。



这些结果意味着,Deep Think 已不再局限于形式化推理问题,而开始具备处理真实科研难题的能力基础。

面向真实工程场景,而非“榜单模型”

谷歌在介绍中反复强调,Gemini 3 Deep Think 的设计目标,并不是单纯在榜单中取得高分。

在工程应用层面,Deep Think 被定位为一种辅助研究与工程决策的工具,可用于:

  • 帮助研究人员理解结构复杂、变量众多的数据
  • 协助工程师使用代码对物理系统进行建模与仿真
  • 在设计与验证阶段提供多路径推理支持

尤其是在工程与科研交叉的场景中,Deep Think 被视为一种潜在的“认知放大器”,而不是自动化替代方案。

谷歌表示,接下来将继续通过 Gemini API 等渠道,将这一能力逐步提供给真正需要它的研究人员和从业者,并在真实使用中持续优化模型行为。

从此次更新可以看出,Gemini 3 Deep Think 的发展方向,正在从单点能力展示,逐步走向更底层的科研与工程智能基础设施。

在大模型普遍追求通用性和产品化体验的背景下,谷歌选择继续在 Deep Think 上深耕高复杂度、低确定性的任务空间。这一策略,也使其在当前大模型格局中,形成了与偏重实时交互和工具化路径的模型体系的明显区隔。

随着 Gemini API 的逐步开放,Gemini 3 Deep Think 是否能够真正嵌入科研与工程流程,并在真实环境中经受住复杂问题的考验,将成为外界关注的下一步关键。

用户:这是真正有用的工具

和 OpenAI Codex Spark 一样,谷歌 Deep Think 也一样逃不掉网友热议。

在 x 上,有用户认为,Deep Think 的价值在于它能否经受住现实的考验:返回可运行的代码,显示假设 / 单位,并在数据缺失时发出明确的错误提示。如果它仍然只是“推理”工具,无法交付模拟程序或调试模型,那么它只不过是一个更高级的自动补全工具而已。



还有 x 用户认为这是一次重要的升级,他表示:“Gemini 将草图转化为 3D 打印模型的功能简直太棒了——这才是工程师们真正会使用的 AI 升级。如果这种趋势持续下去,原型制作速度将提升近 10 倍。”



一位主页介绍为 Amazon 工程师的 x 用户表示:我们正在从聊天时代迈向推理时代。谷歌刚刚升级了 Gemini 3 Deep Think,以解决科学和工程领域最棘手的问题。

“为什么这次更新是一次力量倍增器:它通过探索多个假设来解决没有单一‘正确’答案的问题。针对研究和高级工程中混乱、不完整的数据进行了优化。它使用‘思维签名’来保持长期、复杂项目的逻辑性。”



还有用户表示,此次更新的模型取得的基准测试结果令人印象深刻。

但真正的变革将在以下情况下发生: 人工智能可将工程时间缩短 50%; 人工智能改进科学建模; 人工智能降低研发成本;



https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://openai.com/index/introducing-gpt-5-3-codex-spark/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

蜉蝣说
2026-01-17 18:36:03
陈婷都惊了!七旬张艺谋再破天花板,竟给老夫少妻上了最狠一课!

陈婷都惊了!七旬张艺谋再破天花板,竟给老夫少妻上了最狠一课!

秋姐居
2026-02-12 09:26:34
朱孝天大直男性格真应该改改了,妻子韩雯雯的表情都明显不对劲了

朱孝天大直男性格真应该改改了,妻子韩雯雯的表情都明显不对劲了

西楼知趣杂谈
2026-02-12 20:06:06
“一针下去”或造成终身不可逆伤残!国家卫健委点名轻医美:本质是医疗行为

“一针下去”或造成终身不可逆伤残!国家卫健委点名轻医美:本质是医疗行为

时代周报
2026-02-11 18:29:28
不打伊朗了?特朗普调转枪口,又一场战争恐爆发,俄已开始撤公民

不打伊朗了?特朗普调转枪口,又一场战争恐爆发,俄已开始撤公民

李橑在北漂
2026-02-13 23:56:21
利润超腾讯阿里之和!字节跳动才是“光明顶”,六大门派全慌了

利润超腾讯阿里之和!字节跳动才是“光明顶”,六大门派全慌了

娱乐督察中
2026-02-12 04:38:33
中国金花凋零!张帅0-2无缘正赛:被轰10记ACE,不败纪录终结!

中国金花凋零!张帅0-2无缘正赛:被轰10记ACE,不败纪录终结!

刘姚尧的文字城堡
2026-02-13 20:10:55
一百年前,日本预言家王仁三郎预言:2030年内日本将会彻底毁灭!

一百年前,日本预言家王仁三郎预言:2030年内日本将会彻底毁灭!

今日搞笑分享
2026-02-11 13:04:16
再年轻也没用!辽宁20岁女孩李心悦去世!死因曝光,家人崩溃

再年轻也没用!辽宁20岁女孩李心悦去世!死因曝光,家人崩溃

哄动一时啊
2026-02-12 22:24:42
大型工业设计院也崩了:只发基础工资,裁员60%!

大型工业设计院也崩了:只发基础工资,裁员60%!

黯泉
2026-02-13 22:59:37
陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

青苹果sht
2026-01-20 05:51:45
曼城危机来了!两大中场巨星夏窗或同时离队,蓝月军团面临重建

曼城危机来了!两大中场巨星夏窗或同时离队,蓝月军团面临重建

零度眼看球
2026-02-13 18:56:55
侯友宜整合新北之战成典范!郭正亮喊了不起:郑重向他道歉

侯友宜整合新北之战成典范!郭正亮喊了不起:郑重向他道歉

新时光点滴
2026-02-13 00:12:48
夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

谈史论天地
2026-02-07 13:20:03
日本一女孩直播时称准备自杀,妈妈闯入房间抱住劝阻,日本网友竟留言“坏了好事”

日本一女孩直播时称准备自杀,妈妈闯入房间抱住劝阻,日本网友竟留言“坏了好事”

大象新闻
2026-02-13 18:47:09
恢复中国国籍难如登天?当年润美有多潇洒,现在回家就有多狼狈

恢复中国国籍难如登天?当年润美有多潇洒,现在回家就有多狼狈

荷兰豆爱健康
2026-02-13 21:45:51
大布宣布与贝克汉姆“断亲”后亮相!与妮可拉抱4只狗街头秀恩爱

大布宣布与贝克汉姆“断亲”后亮相!与妮可拉抱4只狗街头秀恩爱

明星私服穿搭daily
2026-02-12 08:27:45
钱再多也没用!42岁身体出问题的雷佳音,给所有男星提了个醒

钱再多也没用!42岁身体出问题的雷佳音,给所有男星提了个醒

白面书誏
2026-01-24 17:14:27
郑秀文称刘德华有社交恐惧症,生活重心只围绕家庭和女儿

郑秀文称刘德华有社交恐惧症,生活重心只围绕家庭和女儿

红星新闻
2026-02-11 17:16:18
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

全球风情大揭秘
2026-02-09 18:41:27
2026-02-14 01:07:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
346文章数 6387关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

数码
亲子
本地
家居
公开课

数码要闻

闪极海外推出300W充电宝Shargeek 300:配DC接口+ 2C + 1A

亲子要闻

操练忠臣,提高觉悟

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版