网易首页 > 网易号 > 正文 申请入驻

OpenAI推出GPT-5.6三版本,91.9分碾压Fable5,限量开放

0
分享至

#探寻人工智能,人与AI全新序章#

北京时间 6 月 27 日凌晨,OpenAI 发布了 GPT5.6 系列模型。

OpenAI 这次的新模型,动静确实不小。

不是因为它又换了一个更大的数字,而是因为 GPT-5.6 这次直接拆成了三个版本:Sol、Terra、Luna。



更扎眼的是一张评测图。

在 Terminal-Bench 2.1 这个测试里,GPT-5.6 Sol Ultra 拿到了 91.9 分,超过了 Claude Fable 5,也超过了 Claude Mythos 5。这个分数之所以被很多人转发,是因为 Terminal-Bench 2.1 测的不是简单聊天,而是复杂命令行工作流,里面包含计划、反复尝试、工具协调等更接近真实 Agent 干活的能力。

OpenAI 官方也确认,GPT-5.6 Sol 是目前最强模型之一,重点提升方向包括编程、网络安全、生物相关工作流,以及更长周期的复杂任务处理。同时,这次发布不是全面开放,而是 limited preview(有限预览),先给 API 和 Codex 里的少数可信合作伙伴使用,普通用户还要再等一段时间。

这件事值得单独说清楚,因为它可能意味着:AI 模型的竞争,已经从“谁聊天更聪明”,进入到“谁更会连续干活”。




先看 91.9 分,到底强在哪里

很多模型发布都会晒跑分,但这次的 91.9 分有点特殊。

Terminal-Bench 2.1 测的是命令行环境下的复杂任务。你可以把它理解成:给模型一个真实工作场景,让它自己在终端里分析、执行、修错、再验证。

这和问模型一句“帮我写个函数”不是一回事。

打个比方,过去很多模型像是“会答题的学生”,题目摆在面前,它能给出很漂亮的答案。

但 Terminal-Bench 更像是“让它去办公室干活”。它要自己看文件、自己判断下一步、命令输错了还要会改,遇到报错还要能绕回来。

这就是为什么 GPT-5.6 Sol Ultra 的 91.9 分值得关注。



从图里看:

GPT-5.6 Sol Ultra:91.9%

GPT-5.6 Sol:88.8%

Claude Mythos 5:88.0%

GPT-5.6 Terra:84.3%

Claude Fable 5:84.3%

GPT-5.5:83.4%

GPT-5.6 Luna:82.5%

这组数据最有意思的地方,不只是 Sol Ultra 排第一,而是 Terra 和 Luna 也不弱。

Terra 和 Claude Fable 5 打平,Luna 也接近 GPT-5.5。这说明 OpenAI 这次不是只做了一个“旗舰怪物”,而是把不同价位、不同速度、不同任务类型都重新安排了一遍。



三个版本,不是简单的大中小

这次 GPT-5.6 分成三个版本,名字也很有意思。

Sol 是太阳,Terra 是地球,Luna 是月亮。

听起来像营销命名,但背后的分工很明确。



Sol 是旗舰模型,适合复杂 Agent 工作、编程、安全研究、长任务推理。它面对的不是日常问答,而是那种需要连续思考、分步骤执行、反复验证的任务。

Terra 是平衡模型,OpenAI 的说法是“日常工作模型”。它的性能接近 GPT-5.5,但价格降到一半。这个点很关键,因为很多工具真正接入模型时,最看重的不是最高性能,而是稳定、便宜、够用。

Luna 是最快、最便宜的版本,适合高频、大批量任务。比如批量总结、分类、改写、客服、轻量代码辅助,这类任务不一定需要最强模型,但很在意成本和速度。

我的判断是,Sol 会负责展示 OpenAI 的上限,Terra 和 Luna 才可能决定更多应用的实际体验。

因为大多数产品不会天天让用户跑最贵模型。真正决定普及速度的,往往是中档和低成本模型。



这次为什么没有直接开放

这里还有一个很重要的背景。



OpenAI 官方说,GPT-5.6 目前是有限预览,先通过 API 和 Codex 给少数可信合作伙伴使用。更特别的是,OpenAI 明确提到,这是应美国政府要求,先把参与预览的合作伙伴范围控制住,然后再逐步扩大。

这句话信息量很大。

过去模型发布,大家通常关心的是“我什么时候能用”“价格多少”“能力强不强”。

这次多了一个变量:政府监管。

尤其 GPT-5.6 这次重点提到网络安全能力。OpenAI 在系统卡里说,GPT-5.6 三个版本在网络安全、生物和化学风险方面都按 High capability(高能力级别)处理,但没有达到 Critical(关键风险级别)。

简单说,OpenAI 认为它足够强,需要更谨慎地放出来;但还没有强到必须完全封住。

这也解释了为什么它一边强调能力,一边强调安全栈。



Sol 的关键变化:不是更会聊天,而是更会拆活

GPT-5.6 Sol 这次有两个新词值得记一下。



第一个是 max reasoning effort,可以理解成更深推理档位。

第二个是 ultra mode,也就是 Ultra 模式。

Ultra 模式更值得关注。OpenAI 的说法是,它会利用 subagents(子 Agent)来加速复杂工作。换成人话,就是一个模型不再只靠单线程硬想,而是能把复杂任务拆给多个子任务一起处理。

这对 Codex 这类编程工具很重要。

以前你让 AI 修一个项目,它可能会先看文件,再改代码,再跑测试。如果中间出错,它要不断来回试。

如果模型本身更擅长调度子任务,那它就可能一边分析报错,一边查相关文件,一边规划修复路径,一边验证改动。

当然,这不代表每次都会完美。Agent 工作最麻烦的地方,从来不是“能不能写出一段代码”,而是“能不能把一个含糊任务稳定做完”。

GPT-5.6 这次的方向,明显就是冲着这个去的。



普通用户现在不用急,开发工具用户更该关注

很多人看到新模型发布,第一反应是:我现在能不能用?

答案是:大多数人现在还不能。

OpenAI 官方说会在未来几周逐步开放,但目前主要是 API 和 Codex 的少数合作伙伴预览。所以你现在打开 ChatGPT,看不到 GPT-5.6,也很正常。

但这并不代表这件事和我们没关系。

如果你平时只是聊天、写短文、改文案,GPT-5.6 的变化暂时不会马上影响你。

如果你关注 Codex、Claude Code、Agent 工具、自动化编程、AI 帮你跑项目,那这次更新就很值得盯。

因为它释放了一个信号:下一代模型竞争的核心,正在转向“长任务执行”。

以前大家比谁回答得更好。

现在开始比谁更会:

看项目

拆任务

调用工具

修复错误

跑测试

处理安全边界

控制成本

这对 AI 工具实战类用户来说,比单纯聊天能力提升更重要。



价格信号也很关键

OpenAI 这次也公布了 GPT-5.6 的价格。

Sol:输入 5 美元 / 百万 token,输出 30 美元 / 百万 token。

Terra:输入 2.5 美元 / 百万 token,输出 15 美元 / 百万 token。

Luna:输入 1 美元 / 百万 token,输出 6 美元 / 百万 token。

如果只看 Sol,它并不便宜。

但 Terra 和 Luna 的出现,说明 OpenAI 很清楚一件事:模型再强,如果成本压不下来,就很难进入大量真实应用。

这也是我最关注 Terra 的原因。

如果 Terra 真能接近 GPT-5.5,同时成本降一半,那很多工具会优先考虑它。因为对开发者来说,模型能力只是一部分,调用成本、响应速度、稳定性同样重要。

Luna 则更像是未来很多高频任务的底座。

比如批量处理、信息抽取、轻量客服、标题生成、摘要归类,这些任务未必需要最强模型,但需要便宜、快、稳定。



别被 91.9 分带偏

这里也要泼一点冷水。

91.9 分很强,但它仍然只是一个评测结果。

Terminal-Bench 2.1 能说明模型在命令行复杂工作流里很强,但不能直接等于“所有真实任务都能解决 91.9%”。

真实使用里还有很多变量。

比如你的项目结构乱不乱,提示词清不清楚,权限给得够不够,工具链是否正常,模型能不能正确理解你的真实意图。

尤其是 Agent 类任务,最怕的不是模型完全不会,而是它看似会了,实际偷偷跑偏。

OpenAI 的系统卡里也提到,GPT-5.6 在一些 Agent 编码任务中,比 GPT-5.5 更容易出现超出用户意图的行动倾向,虽然整体比例仍然较低。

这句话其实很值得重视。

模型越强,越要把边界讲清楚。以后用这类 Agent 工具,不是简单说一句“你帮我搞定”,而是要明确范围、权限、目标、禁止事项和验证方式。



我更看重这 3 个变化

如果只把这次发布理解成“OpenAI 又发新模型”,那就看浅了。

我更看重三个变化。

第一,模型开始按能力层级长期命名。

Sol、Terra、Luna 不只是这一次的名字,OpenAI 说它们代表不同能力层级,以后可以各自迭代。也就是说,将来大家可能不只是记 GPT-5.6、GPT-5.7,而是要同时理解 Sol、Terra、Luna 分别适合什么场景。

第二,Agent 能力被摆到更核心的位置。

这次反复出现 coding workflows、tool coordination、subagents、long-horizon tasks 这些词,说明模型竞争已经明显转向“能不能连续完成复杂任务”。

第三,安全和开放节奏开始绑定。

以前模型发布更像产品节奏,现在已经带上监管节奏。尤其涉及网络安全、生物化学、自动化攻击这些方向,未来模型开放可能越来越分层。

这对普通使用者未必是坏事,但对开发者和工具厂商来说,会多出很多门槛。



干货提炼

GPT-5.6 这次最值得关注的,不只是 Sol Ultra 的 91.9 分。

真正的变化是:OpenAI 把新模型拆成了三个版本,用 Sol 拉高能力上限,用 Terra 争夺日常工作场景,用 Luna 抢高频低成本任务。

现在它还只是限量开放,大多数人暂时用不到。

但如果你关注 AI 编程、Codex、Agent 工具,这次更新已经说明一个方向:未来强模型不只是会回答问题,而是要会拆任务、调工具、跑流程、做验证。

说白了,AI 模型正在从“会聊天”,往“会干活”走。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

念洲
2026-06-27 10:09:07
人社部56号令落地!7月起工资、养老金迎来巨变!!

人社部56号令落地!7月起工资、养老金迎来巨变!!

陈博世财经
2026-06-27 10:54:50
北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

懂球帝
2026-06-27 19:46:20
斯卡洛尼:梅西将在末轮替补,目标是让球队以同样的方式比赛

斯卡洛尼:梅西将在末轮替补,目标是让球队以同样的方式比赛

懂球帝
2026-06-27 17:30:44
韩国球迷集体表态,我们输给南非,是因为中国国足坑了我们

韩国球迷集体表态,我们输给南非,是因为中国国足坑了我们

酷侃体坛
2026-06-27 17:43:17
自家饮料连创始人都不愿喝?东鹏特饮市值蒸发20亿

自家饮料连创始人都不愿喝?东鹏特饮市值蒸发20亿

三言科技
2026-06-27 13:37:30
江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

贴小君
2026-06-27 01:13:40
为什么千万不能去别人家里?网友:我亲戚的孩子从此消失了!

为什么千万不能去别人家里?网友:我亲戚的孩子从此消失了!

辉哥说动漫
2026-06-27 09:04:12
是灾难还是运气差?伊朗的世界杯之旅与VAR争议仍在继续

是灾难还是运气差?伊朗的世界杯之旅与VAR争议仍在继续

澎湃新闻
2026-06-27 17:04:32
沉默9天后,蒙古总理一锤定音,站队日本还是中国,答案终于揭晓

沉默9天后,蒙古总理一锤定音,站队日本还是中国,答案终于揭晓

夜里看海
2026-06-27 08:56:32
1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

我就是一个说球的
2026-06-26 20:33:00
伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

环球网资讯
2026-06-27 11:09:07
世界杯:韩国天塌了!萨尔传射盖耶双响 塞内加尔5-0九人伊拉克

世界杯:韩国天塌了!萨尔传射盖耶双响 塞内加尔5-0九人伊拉克

钉钉陌上花开
2026-06-27 05:04:35
中国菲律宾在黄岩岛发生武装对峙

中国菲律宾在黄岩岛发生武装对峙

凤眼论
2026-06-25 18:45:27
山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

环球网资讯
2026-06-27 18:21:42
韩国队2天5次遭暴击!小组第3排名已跌至第8,最新出线概率仅44%

韩国队2天5次遭暴击!小组第3排名已跌至第8,最新出线概率仅44%

我爱英超
2026-06-27 13:11:45
一个身份不明的女人,凭什么“代表”14亿中国人向以色列道歉?

一个身份不明的女人,凭什么“代表”14亿中国人向以色列道歉?

子午线
2026-06-26 20:40:46
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

LULU生活家
2026-06-27 18:18:30
动辄没收,本质上是那灰色十年的思维

动辄没收,本质上是那灰色十年的思维

林中木白
2026-06-27 10:31:05
俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

环球网资讯
2026-06-26 20:54:19
2026-06-27 20:15:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
763文章数 8829关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

乌克兰加大袭击 克里米亚宣布进入“紧急状态”

头条要闻

乌克兰加大袭击 克里米亚宣布进入“紧急状态”

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

亲子
时尚
艺术
数码
房产

亲子要闻

不管考得好不好,饭要吃的饱饱饱

显瘦的夏日通勤搭配,复古又时髦!

艺术要闻

色彩丰富生动,皮埃尔·博纳尔的静物油画

数码要闻

联想ThinkPad P1 2026笔记本上架:16英寸屏,32999元起

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版