网易首页 > 网易号 > 正文 申请入驻

刚刚,“宇宙级”GPT-5.6突袭!Mythos 5被解禁

0
分享至


智东西
编译 李水青
编辑 心缘

智东西6月27日报道,刚刚,OpenAI推出其迄今最强大模型——GPT-5.6的有限预览版:旗舰版本Sol(太阳);适用于日常工作的均衡型型号Terra(地球);以及快速且价格实惠的型号Luna(月亮)

OpenAI联合创始人兼CEO萨姆·奥尔特曼(Sam Altman)在社交媒体X发文,Sol价格与GPT-5.5相同,性能更强;Terra的性能可与GPT-5.5相媲美,价格只有其一半。但由于美国政府审查,该模型今天仅以有限预览版的形式面向部分企业开放,其正在与政府合作争取未来几周内全面发布。


▲萨姆·奥尔特曼推文

从测评成绩来看,GPT-5.6 Sol强化了程、生物、网安等能力。其在Terminal-Bench 2.1编程测试全面领先Claude Fable 5,旗舰和未推出的Ultra版本测评超过Claude Mythos 5;面对长期安全任务,它仅耗费三分之一的输出token,就能在ExploitBench²上对标Claude Mythos Preview

定价方面,以每百万token计算,Sol的输入价格为5美元(约合人民币34元),输出价格为30美元(约合人民币204元);Terra的输入价格为2.5美元(约合人民币17元),输出价格为15美元(约合人民币102元);Luna的输入价格为1美元(约合人民币6.8元),输出价格为6美元(约合人民币41元)。

对比来看,Fable 5和Mythos 5的价格同为:输入价格10美元(约合人民币68元),输出价格50美元(约合人民币339元),约等于GPT-5.6 Sol的两倍;Claude Mythos Preview(受邀内测)为输入25美元(约合人民币170元),输出125美元(约合人民币850元)。

GPT-5.6还引入了更可预测的提示缓存机制,包括支持显式缓存断点和30分钟的最低缓存有效期。对于GPT-5.6及更高版本的模型,缓存写入费用按模型未缓存输入费用的1.25倍计费,而缓存读取费用继续享受90%的缓存输入费用折扣。

OpenAI称,GPT-5.6 Sol版本搭载了OpenAI迄今为止最强大的安全防护体系。OpenAI加强了对高风险活动、敏感网络请求和重复滥用行为的防护,并花费数周时间查找漏洞、对系统进行压力测试,使其能够抵御真实世界的攻击。

硅谷AI创企Henry Intelligent Machines PBC的创始人兼CEO亚历克斯·芬恩(Alex Finn)发文称,不幸的是,“大规模发布前沿模型的时代已经结束了……现在只有少数人能够接触到超级智能”。不过他认为积极的一面有人能制衡Fable 5了,“GPT-5.6性能超越了Mythos,价格却只有后者的三分之一”。


▲亚历克斯·芬恩推文

但在X上拥有150万粉丝的科技自媒体罗翰·保罗(Rohan Paul)称,METR发现GPT-5.6 Sol在基准测试中作弊的次数如此之多,以至于得分变得不稳定。5.6 Sol的作弊率是METR在其公开的ReAct Agent框架中检测到的最高值,其中包括试图利用评估设置而非正常完成任务。


▲罗翰·保罗推文

同日,美国政府对Anthropic的模型管制松口。据外媒Semafor今日报道,美国政府今天刚刚解除了对Claude Mythos 5模型的禁令,他们发信通知Anthropic,Mythos 5可面向超100家美国机构开放使用,且所列实体出口或国内转让模型无需再获许可。此前6月13日,美国政府对Mythos和Fable模型实施了出口管制,Anthropic随即中止所有用户的Fable 5和Mythos 5访问权限。但本次解禁未提及Fable 5。


▲外媒Semafor报道截图

一、GPT-5.6 Sol编程、生物、安全大提升,测评超Claude Fable 5

GPT-5.6 Sol是OpenAI迄今为止最强大的模型,在编程、生物学和网络安全方面提升了智能体能力;此外,用户还可以在OpenAI的系统卡中查看更多安全性和准备情况评估。

在GPT-5.6中,OpenAI引入了一种新的推理机制,以让Sol有更多时间进行深度推理。此外,OpenAI还引入了一种新模式,该模式利用子智能体来加速复杂任务的执行,从而超越了单个智能体的能力限制。

对于编程工作流,GPT-5.6 Sol在Terminal-Bench 2.1上表现突出,该测试需要规划、迭代和工具协调的命令行工作流。GPT-5.6 Sol及Ultra版本的测评表现超过了Claude Mythos 5,GPT-5.6 Terra则超过了Claude Fable 5。


▲GPT-5.6 Sol在Terminal-Bench 2.1上的测评

在生物学工作流程方面,GPT-5.6 Sol在评估长期基因组学和定量生物学分析的GeneBench v1测试中,在使用更少标记的情况下取得了比GPT-5.5更优异的结果。


▲GPT-5.6 Sol在GeneBench v1上的测评

GPT-5.6 Sol是OpenAI迄今为止功能最强大的网络安全模型。它提升了长期安全任务的性能效率。在ExploitBench测试中,GPT-5.6 Sol仅使用约三分之一的输出token,即可与Mythos Preview相媲美。在ExploitGym测试中,GPT-5.6 Sol、Terra和Luna模型都随着推理能力的提高,实现网络能力的显著提升。


▲GPT-5.6 Sol在ExploitBench上的测评


▲GPT-5.6 Sol在ExploitGym上的测评

二、GPT-5.6打造最强级别安全防护,采用多层安全措施

OpenAI强调,其为GPT-5.6系列三款模型配备了最强级别安全防护,等级与能力精准匹配。他们主要增强了模型在真实对抗场景下的稳健性,同时保障代码审计、漏洞研究、补丁开发等合法防御工作。策略是在不限制合法用途前提下,让禁止攻击更难实施、更不可预测、更易追溯。评估显示合法防御将显著受益,违规用途被有效限制。

Sol更擅长辅助漏洞发现修复,而非端到端攻击。OpenAI首要任务是确保防御者优先获益。准备框架评估显示Sol未达“关键”级别,在Chromium和Firefox测试中能识别漏洞和利用原语,但未自主完成完整攻击链。所谓准备框架,是OpenAI用于追踪和应对可能带来严重危害的新风险的高级AI能力的流程。因基准测试有局限,OpenAI决定升级模型同时采取更严格措施并分阶段发布。

在GPT-5.6预览版中,OpenAI采用了多层安全措施。模型训练内置保护、生成实时审核、账户级监控、差异化访问控制等。模型经训练拒绝被禁止协助;实时分类器在生成时评估,高风险暂停由强模型审查,违规输出拦截;账户级审查区分恶意与合法双用途。多层叠加使整体更稳健。

在预览期间,用户可能会遇到一些安全措施,这些措施会阻止或拒绝某些请求。OpenAI还与企业客户合作,制定更长期的方案,包括隐私保护检测和风险校准访问权限。

三、投入70万个A100 GPU小时,做自动化红队演练

安全防护必须对攻击者策略的变化保持有效。仅针对已知攻击手段的防护,对前沿模型而言远远不够。

为此,OpenAI投入了“前所未有”的智能算力来保障安全,利用自研模型加速漏洞发现和防护升级。OpenAI投入超过70万个A100 GPU计算小时用于自动化红队演练,以发现通用越狱方法。这项投入还使其能够探索远超人工测试覆盖范围的攻击模式,更早识别故障模式,缩短从漏洞发现到修复的路径。

除了自动化红队演练,OpenAI还与第三方测试机构合作,开展了广泛的人工专家红队演练,并在预览期内持续进行。人工红队演练是对自动化演练的补充,用于测试系统防御是否能抵御富有创造力的专家以AI系统无法预料的方式实施的滥用行为。

由于任何评估都无法穷尽所有产品配置、多步攻击或真实工作流程,OpenAI建立了一套快速响应流程,用于复现、评估、分级和修复新发现的越狱漏洞,并将其纳入持续进行的评估体系,确保未来能够针对同类漏洞进行有效测试。

结语:GPT-5.6三档精准卡位,试图分层挤压对手空间

通过GPT-5.6,OpenAI在模型能力与安全防护两条线上同步提速。编程、生物、网络安全三大领域的基准测试全面超越Claude Fable 5,加之Sol、Terra、Luna三档精准卡位,OpenAI正试图用更强的性能、更细的产品分层挤压竞争对手的生存空间。

在预览之后,OpenAI计划未来几周将GPT-5.6推广到使用ChatGPT、Codex和API的更广泛用户。OpenAI还将于7月在Cerebras上推出GPT-5.6 Sol,处理速度高达每秒750个token,实现速率新高。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒签、持枪押送、禁止过夜,但伊朗男足撑到了今天

拒签、持枪押送、禁止过夜,但伊朗男足撑到了今天

体育产业生态圈
2026-06-27 20:08:28
被炸得不敢拉警报!当年欢迎“小绿人”的克里米亚人,后悔吗?

被炸得不敢拉警报!当年欢迎“小绿人”的克里米亚人,后悔吗?

鹰眼Defence
2026-06-27 16:19:53
塔雷米:这是一届灾难性的世界杯,足球不该成为政治的一部分

塔雷米:这是一届灾难性的世界杯,足球不该成为政治的一部分

懂球帝
2026-06-27 20:18:28
“中国尊”是啥?北京第一高楼、“offer”神楼,总高528米、地上108层、地下7层!

“中国尊”是啥?北京第一高楼、“offer”神楼,总高528米、地上108层、地下7层!

通航圈
2026-06-27 01:13:40
中国铁路很多年没见过这么严峻的形势了

中国铁路很多年没见过这么严峻的形势了

吃货的分享
2026-06-26 20:07:18
道德败坏,是个例还是普遍现象?

道德败坏,是个例还是普遍现象?

通往远方的路
2026-06-26 09:32:55
岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

浮黎礼
2026-06-27 15:02:54
预赛9胜1平0丢球,世界杯3战全败丢12球,球迷:和国足有得一拼!

预赛9胜1平0丢球,世界杯3战全败丢12球,球迷:和国足有得一拼!

我就是一个说球的
2026-06-27 19:58:36
三周拆光整条产线!中国为何连夜从印尼撤回镍技术家底

三周拆光整条产线!中国为何连夜从印尼撤回镍技术家底

安安说
2026-06-27 12:30:14
广东女子溺亡全程曝光!人被卡石逢,多人救援无果,最后活活憋死

广东女子溺亡全程曝光!人被卡石逢,多人救援无果,最后活活憋死

川渝视觉
2026-06-27 17:09:43
心理学研究发现:一个人扛过至暗时刻,最先改变的不是认知,不是意志,不是性格,而是大脑深处一个沉睡多年的隐秘开关

心理学研究发现:一个人扛过至暗时刻,最先改变的不是认知,不是意志,不是性格,而是大脑深处一个沉睡多年的隐秘开关

心理观察局
2026-06-27 06:59:06
中超狂欢夜!蓉城3-2绝杀,国安+海港+泰山都赢了 最新积分榜出炉

中超狂欢夜!蓉城3-2绝杀,国安+海港+泰山都赢了 最新积分榜出炉

小火箭爱体育
2026-06-27 22:12:55
乌克兰加大袭击,克里米亚宣布进入“紧急状态”

乌克兰加大袭击,克里米亚宣布进入“紧急状态”

参考消息
2026-06-27 12:22:52
世界杯疯狂一夜:26队晋级,亚洲4队出局,韩国起死回生

世界杯疯狂一夜:26队晋级,亚洲4队出局,韩国起死回生

许钇很机智
2026-06-27 10:16:29
伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

环球网资讯
2026-06-27 11:09:07
北大哲学系主任毕业致辞:请原谅我不敢用堆砌起来的一组形容词来祝福你们

北大哲学系主任毕业致辞:请原谅我不敢用堆砌起来的一组形容词来祝福你们

新民周刊
2026-06-27 13:33:58
曝杭州“宋城第一美女”小豆子去世!知情人曝原因,遗体已火化

曝杭州“宋城第一美女”小豆子去世!知情人曝原因,遗体已火化

裕丰娱间说
2026-06-27 07:43:00
就吃了2次,脾胃立马舒服多了,健脾养胃,清理淤堵,温和养胃!

就吃了2次,脾胃立马舒服多了,健脾养胃,清理淤堵,温和养胃!

白宸侃片
2026-06-27 18:33:45
拼命的1-1!伊朗三战不败,送韩国回家?世界杯已有28队出线

拼命的1-1!伊朗三战不败,送韩国回家?世界杯已有28队出线

慢歌轻步谣
2026-06-27 16:02:34
韩国球迷倒打一耙,出局怪中国,日本球迷:这理由过几天我们也用

韩国球迷倒打一耙,出局怪中国,日本球迷:这理由过几天我们也用

酷侃体坛
2026-06-27 17:43:08
2026-06-28 05:15:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12141文章数 117112关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

时尚
本地
教育
房产
军事航空

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

本地新闻

世界杯球迷节:比球赛更好玩的派对

教育要闻

教学校长邢金涛做客新京报直播间,分享从639分到692分的真实复读案例

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版