![]()
新智元报道
![]()
【新智元导读】最近,AI社区遭遇集体降智潮!OpenAI疑似暗中开启GPT-5.6灰度测试,神秘「Juice」测试引爆全网查成分;另一边,Anthropic的Claude Opus 4.8被曝断崖式降智,疑似被切脑。我们花钱买到的AI,究竟是什么版本?
两大AI巨头——OpenAI和Anthropic,几乎在同一时间陷入了「降智门」?
过去48小时,AI圈掀起了一场由一段神秘提示词引发的全民自测狂欢。
OpenAI被曝出利用Codex平台悄悄进行GPT-5.6的灰度测试,暗中克扣用户的思考预算。
另一边,则是Opus 4.8遭遇史诗级削弱,曾经惊艳全场的模型,如今连最基础的逻辑推理都频频翻车,甚至开始对用户进行PUA。
Opus 4.8 Max被用户痛斥「被切掉了大脑」,性能从惊艳跌入谷底,甚至不如旧版Haiku模型。
莫非,我们正经历一场巨头们精心设计的实验?
神秘的Juice值,
你被灰度到GPT-5.6了吗?
最近,AI社区发现,OpenAI可能正在小范围灰度测试GPT-5.6-sol。
X上一位AI大V发现,在Codex应用中,某些本该运行GPT-5.5 xhigh的会话,被悄悄路由到了名为「gpt-5.6-sol」的未知模型。
![]()
要验证自己是否中签,你只需要运行一段「Juice测试」代码即可。
request>你可以通过Codex App或CLI进行一次快速自查。只需选择 gpt-5.5,将推理设置拉到 xhigh,然后输入上面这段XML代码即可。
这段提示词的本质,是检测模型的隐藏推理算力配额——「Juice」即是模型思考预算的代名词。
实测数据显示,正常的、满血版的 gpt-5.5 xhigh ,在面对特定测试指令时,返回的Juice结果应该是 768。
然而,那些被路由到 gpt-5.6-sol 灰度测试池中的用户,得到的返回值却断崖式下跌到了 128。
-正常GPT-5.5 xhigh: 返回 768
-被灰度到GPT-5.6-sol: 返回 128
768到128,整整缩水了6倍!
![]()
这到底是什么意思?
可以说,这要么意味着GPT-5.6的推理效率实现了史诗级飞跃,要么指向了更令人担忧的可能:所谓的新版本,实际上是通过阉割推理深度换来的「低成本缩水版」。
![]()
结合最近Anthropic频繁封号的背景,OpenAI此举显得意味深长。他们似乎试图通过这种隐蔽的灰度测试,摸索算力成本与生成质量之间的极限平衡点。
网友们纷纷晒出截图,有人欢呼自己「提前解锁了下个版本」,更多人则忧虑:「如果5.6的思考预算只有5.5的六分之一,这到底是升级还是降级?」
![]()
![]()
当然,有时模型也会拒绝回答。
![]()
这不由让人怀疑,是不是OpenAI在通过路由机制,把一部分用户当小白鼠,测试极度简化版的模型,以节省算力成本?
毕竟,普通人可能感知不到推理深度的细微差异。
Claude的物理切脑:
从神坛跌落的Opus 4.8
如果说OpenAI的灰度测试还只是引发好奇与猜测,那么Anthropic对Claude模型的削弱,则是一场明目张胆的「物理切脑」。
现在,Reddit上的 r/Anthropic 版块已经被愤怒的用户抗议所淹没。
很多人发现:所有Claude模型都被严重削弱了,尤其是原本被寄予厚望的Opus 4.8 Max。
![]()
![]()
在发布初期,Opus 4.8以其深邃的推理能力、极低的幻觉率和「追求真理」的坚定立场惊艳了全场。
然而最近,它似乎遭遇了史诗级降智。
![]()
![]()
有人说:它被削弱到了荒谬的程度。现在使用Opus 4.8 Max的感觉,通常比使用老款的Haiku模型还要糟糕得多。
它根本不花时间去思考,不做适当的背景研究,甚至一直在对用户进行煤气灯式的精神操控!
![]()
在reddit社区中,不断有人吐槽使用降智模型的失望。
拥有1000亿token的高级用户吐槽说,Claude最近一周的行为简直愚蠢至极。
![]()
有人说,Opus 4.8仿佛进入了老年痴呆模式。
![]()
![]()
它忽然失去了长期上下文的记忆能力。用户不得不将所有内容塞进同一个巨大的上下文窗口,一旦开启新会话,模型就会彻底迷失方向。
还有人,自己遇到了杠精附体的Opus 4.8,它会为了唱反调而唱反调。
![]()
无论用户输入什么,模型都会扮演反方角色,哪怕是配置服务器集群这种纯粹客观的工作,模型也会强行中断,跳出来说「我得实话实说」,然后用200字的废话去解释一个20字就能说清的概念。
![]()
另外,它还会拒绝思考。
在高思考模式下,面对极其低级的错误,模型甚至懒得多运算一秒,直接秒回错误答案。当被指出错误时,还会装傻充愣。
一场精心设计的实验?
有人做出这个令人细思极恐的推测:我们之前看到的那个「神级」Opus 4.8,可能根本就是一个假象。
因为AI市场被未来预期高度驱动,公司必须不断向市场兜售「技术正在飞速进步」的宏大叙事。
为了维持这种叙事,厂商极有可能在产品发布初期,不计成本地给予模型临时的算力增强,制造出重大技术飞跃的幻觉。
一旦热度过去,或者当巨额的推理成本开始反噬财报时,他们就会在黑箱中悄悄拨回参数。
用静默降级老模型的做法,掩盖全盘降智的真相。然而用户的信任,也被透支了。
资本寒冬下的断臂求生——SpaceX抽干的流动性
有人猜测,如此多模型集体降智的直接原因,或许是上市节奏被打乱。
而根本原因,就是未来拿钱的难度呈指数级上升。
原本在今年的美股剧本中,是OpenAI、Anthropic等预留了充足的资金,准备迎接几场史诗级的IPO。
然而就在本月,SpaceX敲钟上市,以1.77万亿美元的史诗级估值,犹如一个巨大的黑洞,瞬间抽干了美股市场上本就不多的流动性。
再加上一些其他原因,留给AI巨头们的池子已经见底了。
![]()
本来按照Anthropic的规划,最晚上市时间点是今年的第四季度。
如果上市计划推迟,在公司净利润勉强维持、但研发投入仍在剧烈烧钱的当下,Anthropic能做的,就只有降本增效。
真要说起来,其实让人无法接受的,是信息的不对称。
你每个月花几十美元订阅一个服务,这个服务却可以随时、悄悄地改变产品,而完全不需要告知你。
你发现了问题,却无法确认问题的来源。你提出投诉,却可能被模型PUA。
「Juice测试」之所以引发这么大的共鸣,是因为它象征着一种久违的东西——
让我看看我买到的究竟是什么。
参考资料:
https://www.reddit.com/r/Anthropic/comments/1uh7jcr/all_claude_models_got_nerfed_badly/
https://x.com/hqmank/status/2071474791870243091
编辑:Aeneas
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.