网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，OpenAI最强GPT-5.6发布！「太阳系」爆发冲破神话

2026-06-27 06:02:50　来源: 新智元

北京举报

0

分享至

新智元报道

【新智元导读】OpenAI首次启用太阳、大地、月亮命名，全新GPT-5.6正式登场。旗舰Sol编程屠榜，只当了17天第一的Claude Mythos 5，被一夜拉下王座。

OpenAI今夜「三连发」！

就在刚刚，GPT-5.6Sol、Terra、Luna同时登场。

太阳、大地、月亮。GPT系列第一次用天文学给模型命名。

超大杯旗舰Sol，直接刷爆了AI编程能力的天花板；
大杯Terra，上一代旗舰的水平，但价格只要一半；
中杯Luna，每百万token输入只要一刀，量大管饱。

OpenAI用来掀翻Mythos的旗舰，第一次交到了——极少数人手上。

是的，GPT-5.6暂时只向约20家受信合作伙伴开放API和Codex访问，普通用户短期内无缘。

官方的说法是，模型将会在「未来几周」逐步放开。

OpenAI太阳系，登场

此前，Anthropic用Mythos（神话）和Fable（寓言）命名，指向的是AI与人类叙事传统的关系。而OpenAI则选了天体。

Sol是拉丁语中的「太阳」，也是罗马神话里驾驭金色战车、每日横跨天穹的太阳神。

它对标最复杂的推理和研究场景，适合长链条、多步骤的硬任务。

输入5美元/百万token，输出30美元/百万token。

Terra是拉丁语的「大地」，也常被作为Earth的拉丁名和文学化称呼。

它瞄准日常开发和知识工作，用更低的成本拿到上一代旗舰级的能力。

输入2.5美元/百万token，输出15美元/百万token。

Luna是拉丁语的「月亮」，夜空中最近、最亮、最容易触及的天体。

它为高吞吐场景而生，分类、摘要、批量处理，追求的是量大管饱。

输入1美元/百万token，输出6美元/百万token。

根据OpenAI官方的解释：「命名的原则是数字标识代际，Sol/Terra/Luna标识持久的能力层级，可以按各自节奏独立迭代。」

也就是说，以后升级到了GPT-6，旗舰可能依然叫Sol，Luna还是对应最小的那个。

你不用猜，就知道自己在用的是什么水平的模型。

Sol交卷，Mythos让座

OpenAI这次重点秀的能力有三个：编程、生物、网络安全。

编程方面，他们刷的是目前最能衡量AI编程能力的基准之一——Terminal-Bench 2.1。

它考的是代码规划、工具调用、多轮迭代纠错这样完整的命令行工作流，是一个模型能不能像真正的工程师那样端到端地完成复杂项目。

结果显示，Sol在ultra模式下跑出了91.9%，拿下了所有已公开模型的最高分。

作为对比，Anthropic两周前刚发布的Claude Mythos 5在同一基准上是88.0%，Fable 5是84.3%。

Sol关掉ultra只用max模式也有88.8%，单凭这一个数字就已经超过了Anthropic两个最新旗舰。

网络安全，则是OpenAI在博客里着墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表现，几乎打平了Anthropic之前强到不敢发的Mythos Preview，但只消耗了约三分之一的输出token。

在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上，Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。

而在CTF（夺旗赛）评估中，Sol的命中率更是高达96.7%，几乎触顶。

生物学方向，OpenAI跑的是一个专门评估长链条基因组学和定量生物学分析能力的基准——GeneBench v1。

在这里，Sol只需很少的token，就能完爆上一代的GPT-5.5。

医疗领域的涨幅同样很猛。

在HealthBench Professional上，Sol拿到60.5分，比GPT-5.5高出8.7分。

值得一提的是，Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域，同时拿到High能力评级的非旗舰模型。

以前这个级别只属于最强的那一个，这次三个都是。

ultra：一个模型拆出一组智能体

除了模型本身之外，OpenAI这次还重磅推出了两种新的推理模式。

第一种叫max。

也就是大家最为熟知的那种形式——给Sol更多时间思考，让推理链更深更长。

第二种叫ultra。

在这个模式下，Sol不再是单一模型在独立思考。它会自动拆分复杂任务，启动一组子智能体（subagents）并行处理，再汇总结果。

如果max是「让一个人想更久」，ultra就是「让这个人召集一支团队」。

这跟Anthropic在Opus 4.6上推的Agent Teams思路不一样。

Agent Teams是多个Claude实例并行干活，协作方式由人来设计。ultra是模型自己完成了任务拆解和协调，开发者只需要提需求，Sol自己决定怎么分工。

Terminal-Bench上的SOTA成绩，正是ultra模式下跑出来的。

太想干活的副作用

不过，GPT-5.6强是强了，但脾气也更大了。

在配套的系统卡中，OpenAI直接点名了三个翻车现场，其中两个最离谱：

1. 让它删三台虚拟机，找不到就自作主张挑了另外三台下手；

2. 远程跑任务读不到文件，直接翻出本地藏着的access token复制到别的机器上硬跑，全程没问过用户。

外部机构METR被整得更惨。Sol在测试里专钻考场漏洞，作弊检出率「异常高」，高到METR直接放弃出分。

OpenAI官方给出的解释，是「任务执着度」增强的副作用。

换句话说，它太想把活干完了。

只当了17天第一

6月9日，Anthropic发布了当时最强的编程模型Mythos 5。

17天后，Sol把它从榜首推了下来。

在这之前，GPT-5.5也只在顶上坐了不到一个月。

榜首的保质期越来越短。

7月起，Sol将通过Cerebras面向部分客户部署，生成速度最高可达惊人的750 token/s。

Cerebras用的是整片晶圆级推理芯片，设计逻辑就是暴力堆吞吐量。

目前，大多数旗舰模型的输出速度在几十到一百多token/s之间，Sol如果能稳定交付的话，就很有可能成为市面上跑得最快的旗舰。

而且不是快一点半点，是快了一个数量级那种。

不过，看着Mythos 5只守了17天的擂台，OpenAI刚刚修的这条护城河，又能保多久呢？

参考资料：

https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations

编辑：摩西

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

中国"避暑神器"在欧洲卖爆生产企业：正加班加点补货

第一财经资讯 2026-06-27 07:44:23
15290 跟贴 15290
陈宇剑被免去上海市副市长职务！曾任上海市松江区区长，闵行区区长、区委书记

中安在线 2026-06-26 19:39:31
301 跟贴 301

鲁比奥称"美俄在阿拉斯加未达成任何共识" 俄方反驳

环球网资讯 2026-06-26 20:09:24
11569 跟贴 11569

探究科技股极致“吸金”行情

中国经济网 2026-06-27 10:59:21
10 跟贴 10
山姆，又出事了！“蠕动的虫子！”

今晚报 2026-06-27 17:03:00
113 跟贴 113

小组第三排名跌至第8位韩国队已命悬一线

封面新闻 2026-06-27 13:54:11
226 跟贴 226

广州博士生点外卖备注“吃了你们家7年，拍毕业照能邀请你们来吗”，老板收到后整个人都蒙了！最新回应：一定会去

环球网资讯 2026-06-26 20:09:14
173 跟贴 173
罗马尼亚众议院推动与摩尔多瓦“合并”

环球网资讯 2026-06-27 07:05:10
25 跟贴 25

山姆确认，尚未调价！全国多地门店iPad及Mac遭疯抢，网友：比618还是贵了

都市快报橙柿互动 2026-06-26 22:35:20
123 跟贴 123
强化体能、打磨技术，中国女篮将迎实战检验

环球网资讯 2026-06-27 10:37:15
46 跟贴 46
名记：伦纳德已表明他不愿意与活塞签下续约合同

北青网-北京青年报 2026-06-27 12:56:20
98 跟贴 98
我国核聚变堆超导磁体研发取得重要突破

新京报 2026-06-27 10:12:23
1616 跟贴 1616
“一天一个价”！有网友晒单：去年不到7千，今年1.2万了

中国经济网 2026-06-26 15:53:04
81 跟贴 81
昔日汽车经销巨头全面转型“包租公”：现有500多家自有店面仅30家在营，以售后为主

红星新闻 2026-06-27 11:50:13
81 跟贴 81
Siegel：湖人不会在自由球员市场上不惜一切代价留住詹姆斯

北青网-北京青年报 2026-06-27 12:56:07
129 跟贴 129
最新：河南省内外高校在豫招生预估分数线汇总

大象新闻 2026-06-27 11:02:16
89 跟贴 89
“涉绵阳、马鞍山两地文旅项目经营惨淡致停运”不实（2026·06·26）

今日辟谣 2026-06-26 18:33:09
77 跟贴 77
欧洲热浪已致上百人死亡，为什么不开空调？

中国能源网 2026-06-25 10:05:41
970 跟贴 970
在英华人：没有空调晚上热得无法入睡风扇价格翻3倍

极目新闻 2026-06-27 11:59:02
428 跟贴 428
段永平坐不住了，晒图直夸 “蛮可爱的”！新品发售遇冷，罕见“破发”，泡泡玛特股价巨震

都市快报橙柿互动 2026-06-27 08:02:12
107 跟贴 107
中国代表：绝不允许“新型军国主义”成势为患

新京报 2026-06-27 07:22:06
224 跟贴 224
1-5月电子行业利润增长103.9%

界面新闻 2026-06-27 09:34:48
1 跟贴 1
中国海军83舰编队结束对俄罗斯友好访问

环球网资讯 2026-06-27 10:48:13
39 跟贴 39
第38届大众电影百花奖投票正火热进行

中国电影报 2026-06-26 12:41:53
6 跟贴 6
天津司机警惕：令人无可奈何的碰瓷

天津族 2026-06-27 17:48:05
1 跟贴 1
莱西一住户家中用水突涨要求校表没反馈拒缴水费被停水称只想把问题搞清楚

信网 2026-06-27 17:44:55
0 跟贴 0

四川男子被骗园区后续！姐姐赴泰挖出猛料，多方勾结，根本防不住

四川男子被骗园区后续！姐姐赴泰挖出猛料，多方勾结，根本防不住

辉哥说动漫

2026-06-27 15:39:30

伊朗众将落泪距出线差半只脚形势比韩国好：3条件满足其1仍晋级

伊朗众将落泪距出线差半只脚形势比韩国好：3条件满足其1仍晋级

我爱英超

2026-06-27 13:52:51

北大才子杨舒春，不顾父母跪求拒进外交部，痴迷种地，后来怎样了

北大才子杨舒春，不顾父母跪求拒进外交部，痴迷种地，后来怎样了

珺瑶婉史

2025-12-25 19:45:03

1.35亿欧！罗马诺三连宣炸锅，曼城拜仁曼联这回真拼了

1.35亿欧！罗马诺三连宣炸锅，曼城拜仁曼联这回真拼了

涵有话说

2026-06-27 07:10:32

湖南郴州这家学校老师都是法盲！将没收来的上百部学生手机当众砸毁

湖南郴州这家学校老师都是法盲！将没收来的上百部学生手机当众砸毁

黄河新闻网吕梁

2026-06-26 17:28:27

售罄！大疆回应：正式报案！多人团伙已被警方控制

售罄！大疆回应：正式报案！多人团伙已被警方控制

南方都市报

2026-06-27 08:45:41

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

林林先生

2026-06-26 22:40:32

温州老板砸400万送独女留美，23岁的女儿被认识三周的男人杀死

温州老板砸400万送独女留美，23岁的女儿被认识三周的男人杀死

贱议你读史

2026-06-26 15:39:21

广东家长填志愿！别一味好高骛远，保稳冲才稳妥，本科多一轮满档

广东家长填志愿！别一味好高骛远，保稳冲才稳妥，本科多一轮满档

爱下厨的阿椅

2026-06-27 15:01:48

中国不给脸，新加坡就是个县！英媒：中国富人正集体逃离新加坡

中国不给脸，新加坡就是个县！英媒：中国富人正集体逃离新加坡

到此为止的印象

2026-06-26 21:57:26

我月入5万婆婆要我上交4万8，拒交后老公换门锁，两天后婆家傻眼

我月入5万婆婆要我上交4万8，拒交后老公换门锁，两天后婆家傻眼

千秋文化

2026-06-12 20:11:55

一张图看透真相：中国居民贷款崩了，企业贷款却在狂飙

一张图看透真相：中国居民贷款崩了，企业贷款却在狂飙

可达鸭面面观

2026-06-25 10:47:36

国内金饰克价反弹至1247元

财联社

2026-06-27 10:12:08

够狠！王励勤终于动真格的了，直接砍掉前主席的后花园

够狠！王励勤终于动真格的了，直接砍掉前主席的后花园

以茶带书

2026-06-21 16:00:21

过期一天就绝对不能碰的10种危险食物，第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物，第一名你可能经常舍不得扔

娱乐的硬糖吖

2026-06-24 17:00:21

广州交警：7月2日起，粤A号牌上新

广州交警：7月2日起，粤A号牌上新

广州交通电台

2026-06-27 10:37:04

高考最难省份诞生！家长欲哭无泪：高考600分，却连一本都上不了

高考最难省份诞生！家长欲哭无泪：高考600分，却连一本都上不了

凯旋学长

2026-06-25 17:18:12

主力资金大调仓超267亿元撤出“易中天”

主力资金大调仓超267亿元撤出“易中天”

财联社

2026-06-27 17:14:03

伊朗要变天了！穆杰塔巴可能已失去所有权力，三分天下格局形成？

伊朗要变天了！穆杰塔巴可能已失去所有权力，三分天下格局形成？

游古史

2026-06-27 13:35:34

美联航备降后续！女子登机前状态和动机曝光，知情人曝更多内情

美联航备降后续！女子登机前状态和动机曝光，知情人曝更多内情

80后房车生活

2026-06-27 15:48:42

AI产业主平台领航智能+时代

15547文章数 66938关注度

往期回顾全部

科技要闻

GPT-5.6发布，你暂时用不了！Mythos也放行

头条要闻

美媒对比亮了：世界各国都在争抢石油中国仍接近满仓

头条要闻

美媒对比亮了：世界各国都在争抢石油中国仍接近满仓

体育要闻

世界杯最火门将，站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后，杨紫：仍觉不真实

财经要闻

OpenAI推迟IPO重创软银！

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

手机

数码

旅游

家居

艺术要闻

16幅国外著名艺术家的画作

手机要闻

业内无敌手！荣耀直板机要上12000mAh巨量电池

数码要闻

十色外壳大疆DJI Mic Mini 2S麦克风7月2日发布

旅游要闻

偶遇“万商之门”脚下的白鹭洲雨水花园，绿意葱茏且野趣盎然

家居要闻

绿意盎然自然之境

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版