网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI最强GPT-5.6发布!「太阳系」爆发冲破神话

0
分享至


新智元报道


【新智元导读】OpenAI首次启用太阳、大地、月亮命名,全新GPT-5.6正式登场。旗舰Sol编程屠榜,只当了17天第一的Claude Mythos 5,被一夜拉下王座。

OpenAI今夜「三连发」!

就在刚刚,GPT-5.6Sol、Terra、Luna同时登场。

太阳、大地、月亮。GPT系列第一次用天文学给模型命名。

  • 超大杯旗舰Sol,直接刷爆了AI编程能力的天花板;

  • 大杯Terra,上一代旗舰的水平,但价格只要一半;

  • 中杯Luna,每百万token输入只要一刀,量大管饱。


OpenAI用来掀翻Mythos的旗舰,第一次交到了——极少数人手上。

是的,GPT-5.6暂时只向约20家受信合作伙伴开放API和Codex访问,普通用户短期内无缘。

官方的说法是,模型将会在「未来几周」逐步放开。



OpenAI太阳系,登场

此前,Anthropic用Mythos(神话)和Fable(寓言)命名,指向的是AI与人类叙事传统的关系。而OpenAI则选了天体。

Sol是拉丁语中的「太阳」,也是罗马神话里驾驭金色战车、每日横跨天穹的太阳神。

它对标最复杂的推理和研究场景,适合长链条、多步骤的硬任务。

输入5美元/百万token,输出30美元/百万token。

Terra是拉丁语的「大地」,也常被作为Earth的拉丁名和文学化称呼。

它瞄准日常开发和知识工作,用更低的成本拿到上一代旗舰级的能力。

输入2.5美元/百万token,输出15美元/百万token。

Luna是拉丁语的「月亮」,夜空中最近、最亮、最容易触及的天体。

它为高吞吐场景而生,分类、摘要、批量处理,追求的是量大管饱。

输入1美元/百万token,输出6美元/百万token。


根据OpenAI官方的解释:「命名的原则是数字标识代际,Sol/Terra/Luna标识持久的能力层级,可以按各自节奏独立迭代。」

也就是说,以后升级到了GPT-6,旗舰可能依然叫Sol,Luna还是对应最小的那个。

你不用猜,就知道自己在用的是什么水平的模型。


Sol交卷,Mythos让座

OpenAI这次重点秀的能力有三个:编程、生物、网络安全。

编程方面,他们刷的是目前最能衡量AI编程能力的基准之一——Terminal-Bench 2.1。

它考的是代码规划、工具调用、多轮迭代纠错这样完整的命令行工作流,是一个模型能不能像真正的工程师那样端到端地完成复杂项目。

结果显示,Sol在ultra模式下跑出了91.9%,拿下了所有已公开模型的最高分。

作为对比,Anthropic两周前刚发布的Claude Mythos 5在同一基准上是88.0%,Fable 5是84.3%。

Sol关掉ultra只用max模式也有88.8%,单凭这一个数字就已经超过了Anthropic两个最新旗舰。


网络安全,则是OpenAI在博客里着墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表现,几乎打平了Anthropic之前强到不敢发的Mythos Preview,但只消耗了约三分之一的输出token。


在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上,Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。

而在CTF(夺旗赛)评估中,Sol的命中率更是高达96.7%,几乎触顶。



生物学方向,OpenAI跑的是一个专门评估长链条基因组学和定量生物学分析能力的基准——GeneBench v1。

在这里,Sol只需很少的token,就能完爆上一代的GPT-5.5。



医疗领域的涨幅同样很猛。

在HealthBench Professional上,Sol拿到60.5分,比GPT-5.5高出8.7分。


值得一提的是,Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域,同时拿到High能力评级的非旗舰模型。

以前这个级别只属于最强的那一个,这次三个都是。

ultra:一个模型拆出一组智能体

除了模型本身之外,OpenAI这次还重磅推出了两种新的推理模式。

第一种叫max。

也就是大家最为熟知的那种形式——给Sol更多时间思考,让推理链更深更长。

第二种叫ultra。

在这个模式下,Sol不再是单一模型在独立思考。它会自动拆分复杂任务,启动一组子智能体(subagents)并行处理,再汇总结果。

如果max是「让一个人想更久」,ultra就是「让这个人召集一支团队」。


这跟Anthropic在Opus 4.6上推的Agent Teams思路不一样。

Agent Teams是多个Claude实例并行干活,协作方式由人来设计。ultra是模型自己完成了任务拆解和协调,开发者只需要提需求,Sol自己决定怎么分工。

Terminal-Bench上的SOTA成绩,正是ultra模式下跑出来的。

太想干活的副作用

不过,GPT-5.6强是强了,但脾气也更大了。

在配套的系统卡中,OpenAI直接点名了三个翻车现场,其中两个最离谱:

1. 让它删三台虚拟机,找不到就自作主张挑了另外三台下手;

2. 远程跑任务读不到文件,直接翻出本地藏着的access token复制到别的机器上硬跑,全程没问过用户。

外部机构METR被整得更惨。Sol在测试里专钻考场漏洞,作弊检出率「异常高」,高到METR直接放弃出分。


OpenAI官方给出的解释,是「任务执着度」增强的副作用。

换句话说,它太想把活干完了。

只当了17天第一

6月9日,Anthropic发布了当时最强的编程模型Mythos 5。

17天后,Sol把它从榜首推了下来。

在这之前,GPT-5.5也只在顶上坐了不到一个月。

榜首的保质期越来越短。


7月起,Sol将通过Cerebras面向部分客户部署,生成速度最高可达惊人的750 token/s。

Cerebras用的是整片晶圆级推理芯片,设计逻辑就是暴力堆吞吐量。

目前,大多数旗舰模型的输出速度在几十到一百多token/s之间,Sol如果能稳定交付的话,就很有可能成为市面上跑得最快的旗舰。

而且不是快一点半点,是快了一个数量级那种。

不过,看着Mythos 5只守了17天的擂台,OpenAI刚刚修的这条护城河,又能保多久呢?

参考资料:

https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations

编辑:摩西


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

辉哥说动漫
2026-06-27 15:39:30
伊朗众将落泪 距出线差半只脚 形势比韩国好:3条件满足其1仍晋级

伊朗众将落泪 距出线差半只脚 形势比韩国好:3条件满足其1仍晋级

我爱英超
2026-06-27 13:52:51
北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

珺瑶婉史
2025-12-25 19:45:03
1.35亿欧!罗马诺三连宣炸锅,曼城拜仁曼联这回真拼了

1.35亿欧!罗马诺三连宣炸锅,曼城拜仁曼联这回真拼了

涵有话说
2026-06-27 07:10:32
湖南郴州这家学校老师都是法盲!将没收来的上百部学生手机当众砸毁

湖南郴州这家学校老师都是法盲!将没收来的上百部学生手机当众砸毁

黄河新闻网吕梁
2026-06-26 17:28:27
售罄!大疆回应:正式报案!多人团伙已被警方控制

售罄!大疆回应:正式报案!多人团伙已被警方控制

南方都市报
2026-06-27 08:45:41
有那钱不如刷刷墙!一场农村生日仪式被群嘲,家长被迫看清现实!

有那钱不如刷刷墙!一场农村生日仪式被群嘲,家长被迫看清现实!

林林先生
2026-06-26 22:40:32
温州老板砸400万送独女留美,23岁的女儿被认识三周的男人杀死

温州老板砸400万送独女留美,23岁的女儿被认识三周的男人杀死

贱议你读史
2026-06-26 15:39:21
广东家长填志愿!别一味好高骛远,保稳冲才稳妥,本科多一轮满档

广东家长填志愿!别一味好高骛远,保稳冲才稳妥,本科多一轮满档

爱下厨的阿椅
2026-06-27 15:01:48
中国不给脸,新加坡就是个县!英媒:中国富人正集体逃离新加坡

中国不给脸,新加坡就是个县!英媒:中国富人正集体逃离新加坡

到此为止的印象
2026-06-26 21:57:26
我月入5万婆婆要我上交4万8,拒交后老公换门锁,两天后婆家傻眼

我月入5万婆婆要我上交4万8,拒交后老公换门锁,两天后婆家傻眼

千秋文化
2026-06-12 20:11:55
一张图看透真相:中国居民贷款崩了,企业贷款却在狂飙

一张图看透真相:中国居民贷款崩了,企业贷款却在狂飙

可达鸭面面观
2026-06-25 10:47:36
国内金饰克价反弹至1247元

国内金饰克价反弹至1247元

财联社
2026-06-27 10:12:08
够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

以茶带书
2026-06-21 16:00:21
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
广州交警:7月2日起,粤A号牌上新

广州交警:7月2日起,粤A号牌上新

广州交通电台
2026-06-27 10:37:04
高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

凯旋学长
2026-06-25 17:18:12
主力资金大调仓 超267亿元撤出“易中天”

主力资金大调仓 超267亿元撤出“易中天”

财联社
2026-06-27 17:14:03
伊朗要变天了!穆杰塔巴可能已失去所有权力,三分天下格局形成?

伊朗要变天了!穆杰塔巴可能已失去所有权力,三分天下格局形成?

游古史
2026-06-27 13:35:34
美联航备降后续!女子登机前状态和动机曝光,知情人曝更多内情

美联航备降后续!女子登机前状态和动机曝光,知情人曝更多内情

80后房车生活
2026-06-27 15:48:42
2026-06-27 18:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15547文章数 66938关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

美媒对比亮了:世界各国都在争抢石油 中国仍接近满仓

头条要闻

美媒对比亮了:世界各国都在争抢石油 中国仍接近满仓

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

艺术
手机
数码
旅游
家居

艺术要闻

16幅 国外著名艺术家的画作

手机要闻

业内无敌手!荣耀直板机要上12000mAh巨量电池

数码要闻

十色外壳 大疆DJI Mic Mini 2S麦克风7月2日发布

旅游要闻

偶遇“万商之门”脚下的白鹭洲雨水花园,绿意葱茏且野趣盎然

家居要闻

绿意盎然 自然之境

无障碍浏览 进入关怀版