网易首页 > 网易号 > 正文 申请入驻

GPT-5.6来了,最强性能只对20家开放

0
分享至

北京时间6月27日凌晨,OpenAI发布了GPT-5.6。按往年惯例,这本该是Sam Altman站在舞台上微笑着宣布“现在所有人都可以使用”的时刻。但是没有。没有面向公众的发布会,没有ChatGPT直接上线,没有全球开发者API开放。取而代之的是一封事先写好了地址的邀请函,收件人大约20个,且每一个都必须由美国政府点头同意。两周前,另一家头部AI公司Anthropic的最新型号Fable 5在发布仅3天后被美国商务部一纸信函全球关停。两个行业巨头,两个完全相反的应对路径,却撞上了同一堵墙。

GPT-5.6的故事,既是关于一个模型有多强的故事,也是关于一道门正在如何关上的故事。OpenAI这次没有沿用Pro、Mini那套老命名,而是端出三个以天文学命名的型号:Sol(太阳)、Terra(大地)、Luna(月亮)。这听起来像一个浪漫的产品宇宙,但它对应的是行业里早已成熟的三层产品分层:旗舰负责能力上限,均衡款负责日常任务,轻量款负责速度和成本。在Terminal-Bench 2.1这个目前最能衡量AI端到端编程能力的基准测试上,GPT-5.6 Sol在ultra模式下跑出了91.9%的得分,拿下所有已公开模型的最高分。这个测试考的并不是写一段函数,而是让模型在命令行环境里理解问题、拆解步骤、调用工具、运行命令、检查结果、出错再改,直到任务完成,更接近真实开发流程而非考试答题。


作为参照,两周前Anthropic刚发布的Claude Mythos 5是88.0%,Fable 5是84.3%。也就是说,Mythos 5的榜首位置只坐了17天。即便Sol关掉ultra只用max模式,也有88.8%,单凭这个数字就已经超过了Anthropic两个最新旗舰的全部成绩。但真正让竞争对手紧张的,并不是分数本身,而是效率。在ExploitBench这个更接近真实漏洞利用场景的网络安全评估中,Sol的表现几乎打平了Anthropic此前“强到不敢公开发布”的Mythos Preview,但只消耗了约三分之一的输出token。更少的token意味着更简洁的推理路径、更少的试错绕路,也意味着实际调用成本更可控。在CTF夺旗赛中,Sol的命中率高达96.7%,几乎触顶。OpenAI反复向外界传递同一个信息:我们不仅跑得最快,而且跑得最省力。

这种效率优势背后是两项新机制。第一个叫max reasoning effort,可以理解为“最大推理强度”:给Sol更多时间和更深长的推理链来处理那些不能靠第一反应解决的复杂任务。第二个叫ultra mode,这是更有想象力的设计。Sol不再是一个模型独立思考,而是自动将复杂任务拆分、启动多个子智能体并行处理、再汇总结果。如果说max是“让一个人想更久”,ultra就是“让这个人召集一支团队分头干活”。关键区别在于,Anthropic的Agent Teams需要人来设计协作方式,而ultra是模型自己完成任务拆解和协调。Terminal-Bench的SOTA成绩正是ultra模式跑出来的。

三层定价同样值得细看。Sol对齐上一代GPT-5.5标准版定价,输入5美元、输出30美元每百万token,能力却跃升了一个代际。Terra砍半到2.5美元和15美元,OpenAI直接把它定位为“GPT-5.5级别能力,一半价格”,在Terminal-Bench上拿到84.3%,与Claude Fable 5持平。Luna压到1美元和6美元,只有GPT-5.5价格的五分之一,专攻批量摘要、文本分类这些高并发低延迟的大规模部署场景。过去几年OpenAI的策略可以总结为一句话:做一个最强的模型,让所有人用它。这次跟进Anthropic的Opus/Sonnet/Haiku三层架构,本质上是承认了同一个商业现实:不同客户需要不同的模型,一个旗舰无法同时覆盖追求极限性能的研究机构、精打细算的企业客户,以及只要够快够便宜的规模化应用。

考虑到OpenAI已秘密提交IPO申请、目标估值可能在1万亿美元上下,Sol/Terra/Luna的三层定价体系本质上也是一份写好了的ARR增长故事。CFO Sarah Friar的目标时间点是2027年,但一些顾问认为年内就可能冲刺。公司目前约9亿周活用户、月营收约20亿美元,在递交招股书之前必须向华尔街讲清楚两件事:一是不依赖单一爆款,有可持续的产品矩阵;二是有清晰的收入分层和增长逻辑。三层模型矩阵恰好同时回答了这两个问题。7月起Sol还将通过Cerebras部署,生成速度最高可达750 token/s,比目前旗舰模型快了一个数量级。但所有精心编排的技术叙事和商业叙事,都被“仅限20家审批企业”这条线架在了半空中。你可以在纸面上设计最美妙的产品分层和增长故事,但如果政府控制了分发渠道,定价权就不再只属于你。

GPT-5.6为什么不能直接上线?这需要溯源到14天前Anthropic的遭遇。美东时间6月9日,Anthropic按计划发布了Fable 5和Mythos 5,这是其冲击IPO前证明技术领先性的两颗关键棋子。发布前的内部评估认为它们是“有防护栏的、安全的”。6月11日,CEO Dario Amodei发表了一篇重磅政策文章,公开呼吁美国政府建立对前沿AI模型的法定审查和关停权力。两天后,政府用这个逻辑对Anthropic动手了:美东时间6月12日下午5时21分,美国商务部长Howard Lutnick签发信函,援引出口管制法律中的“视同出口”条款,要求Anthropic立即停止向全球任何外国国民提供这两个模型的访问权限。

注意,“外国国民”不仅包括海外用户,还包括在美国境内工作的外籍员工。既然连自家员工都在管制范围内,任何选择性屏蔽方案在技术上和法律上都走不通。Anthropic的回应没有中间地带:全球下线。从信函发出到Fable 5消失,不到48小时。这是AI行业版的“求锤得锤”:你呼吁政府建立关停权力,政府就关停给你看。理解这件事的钥匙是一个大多数科技从业者从未听过的法律概念:“视同出口”。在美国出口管制法律体系中,这条规则规定:将受管制技术泄露给在美国境内的外国国民,本身就等同于向该外国国民的国籍国出口该项技术。它原本的靶子是军工和半导体。一个中国籍工程师在英特尔美国实验室看到某款芯片的设计图,法律上等同于把这颗芯片出口到了中国。美国商务部工业安全局此次做出的跨越是:将“视同出口”规则首次应用到了已部署在云端的AI模型的访问控制上。它限制的不是GPU出口,不是芯片制造设备,不是训练数据跨境,而是谁能调用一个API、从哪个IP地址调用、用哪本护照调用。

法律分析平台Lawfare的评论一针见血:“出口管制当局原本为实体商品和一种更早期的技术形态而设计,现在被要求做一件真正全新的事情。”不需要国会通过新法律,不需要冗长的行政程序,一封商务部长的信函就够了。OpenAI则选择了一条完全不同的路。GPT-5.6发布前,Altman在6月初赴华盛顿向白宫做了汇报,并主动将分发范围限制在政府审批的企业名单内。OpenAI没有像Anthropic那样在公开政策文章中呼吁管制,而是通过提前协调拿到了一份“白名单”,把原本可能一纸关停的模型,变成了只有少数机构能触碰的圈内特供。最强的模型已经造出来了,但你可能暂时用不上。你能做的,只是看到它屠榜的分数,然后等这一扇门到底要开一条缝,还是彻底关上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩媒:韩国出局后被中国网民嘲讽,热搜话题引发热议

韩媒:韩国出局后被中国网民嘲讽,热搜话题引发热议

懂球帝
2026-06-28 15:47:15
李世民在HK风评很差?为何教科书上全是负面评价?

李世民在HK风评很差?为何教科书上全是负面评价?

小豫讲故事
2026-06-17 06:00:10
以色列,终于活成世人讨厌的样子

以色列,终于活成世人讨厌的样子

春夫杂谈
2026-06-27 18:30:43
安娴跟山姆提出离婚,因为跟婆婆闹矛盾,至今仍然在冷战。

安娴跟山姆提出离婚,因为跟婆婆闹矛盾,至今仍然在冷战。

新时代的两性情感
2026-06-29 00:23:17
公公半夜拿着注射器推开我的房门,我冷笑着摸出枕头下的高压电棍

公公半夜拿着注射器推开我的房门,我冷笑着摸出枕头下的高压电棍

千秋文化
2026-06-28 19:49:31
刘烨儿子久违现身,16岁诺一身高超180,过了容貌尴尬期变更帅了

刘烨儿子久违现身,16岁诺一身高超180,过了容貌尴尬期变更帅了

潋滟晴方DAY
2026-06-28 13:01:32
中等生成不了学霸,不是智商不够,而是被这3个短板拖了后腿!

中等生成不了学霸,不是智商不够,而是被这3个短板拖了后腿!

好爸育儿
2026-06-22 08:31:28
江苏一新生儿“没眼睛”,父母惶恐不安,谁料,医生一看笑出声了

江苏一新生儿“没眼睛”,父母惶恐不安,谁料,医生一看笑出声了

背包旅行
2026-06-28 17:26:01
日媒紧盯:中国关键金属进口量飙升,“手上有牌”

日媒紧盯:中国关键金属进口量飙升,“手上有牌”

观察者网
2026-06-28 16:02:09
重磅利好!国内首条四代半导体材料落地!8大硬核材料龙头曝光

重磅利好!国内首条四代半导体材料落地!8大硬核材料龙头曝光

媛来这样
2026-06-28 11:44:10
700分以上人数对比,湖北31人,河南48人,浙江“断层式”领先!

700分以上人数对比,湖北31人,河南48人,浙江“断层式”领先!

手工制作阿爱
2026-06-28 00:13:17
1亿中锋仅要1个首轮!交易市场最超值的大鱼出现,湖人等多队哄抢

1亿中锋仅要1个首轮!交易市场最超值的大鱼出现,湖人等多队哄抢

你的篮球频道
2026-06-28 11:57:08
双色球第2026073期:中出一等奖10注,奖池累计3.28亿元

双色球第2026073期:中出一等奖10注,奖池累计3.28亿元

新浪财经
2026-06-28 22:33:35
为何不轮休C罗?葡主帅:拿他与梅西、哈兰德对比“太幼稚”

为何不轮休C罗?葡主帅:拿他与梅西、哈兰德对比“太幼稚”

南方都市报
2026-06-28 14:36:14
医生:希望你的血脂报告里,永远不要出现这3项异常

医生:希望你的血脂报告里,永远不要出现这3项异常

华庭讲美食
2026-06-23 16:28:06
三胞胎高考692、668、644,老大上清华,可老二老三谁心疼?

三胞胎高考692、668、644,老大上清华,可老二老三谁心疼?

优墨出品
2026-06-27 20:58:46
高市政府失算了!日本高端光刻胶全面断供,却不想中国早就料到了

高市政府失算了!日本高端光刻胶全面断供,却不想中国早就料到了

青桅
2026-06-28 18:19:11
为什么高考本科线只有400多分,却有一大半学生根本考不上本科?

为什么高考本科线只有400多分,却有一大半学生根本考不上本科?

娱乐的宅急便
2026-06-28 08:40:23
他是光刻机技术领域的华裔专家,但是从来不跟中国大陆有任何来往

他是光刻机技术领域的华裔专家,但是从来不跟中国大陆有任何来往

潘鍵旅行浪子
2026-06-05 12:45:32
黎姿弟弟黎婴惊喜现身红馆!坐轮椅看魔术秀状态大好,面色好润

黎姿弟弟黎婴惊喜现身红馆!坐轮椅看魔术秀状态大好,面色好润

开烟酒店的明哥
2026-06-28 22:56:57
2026-06-29 03:27:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
239文章数 83关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

亲子
家居
本地
时尚
公开课

亲子要闻

肠道真菌菌群紊乱增加儿童过敏风险

家居要闻

绿意盎然 自然之境

本地新闻

世界杯球迷节:比球赛更好玩的派对

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版