网易首页 > 网易号 > 正文 申请入驻

GPT-5.5参数有10T?病毒式论文刚刚被打假,实际缩水至1.5T

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】五一假期前,AI社区被一篇「GPT-5.5拥有近10万亿参数」的论文刷屏,今天这项研究就被研究者打假了!研究者表示,修正论文中的各种问题后,GPT-5.5的参数很可能约为1.5T。

2026年4月底,AI界被一篇名为《不可压缩知识探针》(Incompressible Knowledge Probes,简称 IKP)的论文震动了。


论文地址:https://www.alphaxiv.org/abs/2604.24827

Pine AI的首席科学家Bojie Li发表了一项研究,声称通过一种全新的「黑盒探测法」,推算出了那些闭源模型的真实体量。

  • GPT-5.5:9.7万亿(9.7T)参数

  • Claude Opus 4.7:4.0万亿(4.0T)参数

  • o1:3.5万亿(3.5T)参数

这个数据瞬间引爆了社交媒体。

要知道,如果GPT-5.5真的达到了10T规模,那意味着它比传闻中的GPT-4(约1.8T)大了5倍有余。

一时间,这个参数瞬间传遍全网。


然而,仅仅几天后,反转就来了。

逻辑的漏洞:从10T到1.5T的缩水内幕

最近,来自UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon对这篇论文进行了深挖。


他们发现,这篇声称「逆推大模型规模」的爆火论文,竟然存在严重的逻辑与代码偏差。


修复这些问题后,GPT-5.5的参数约为1.5T(90% 置信区间:256B-8.3T)。


被修饰的拟合曲线

在原始论文中,作者声称没有对模型的得分进行「保底处理」(flooring)。但在复现代码时,研究者发现作者在计算小模型得分时,偷偷地将负分归零了。

科普:当模型遇到不知道的冷知识时,如果乱猜(幻觉),得分会是负数。

如果把这个「归零」操作去掉,小模型的得分会大幅下降。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后,估算的GPT-5.5规模直接从9.7T暴跌至1.5T



「人工智障」出题:25%的题目本身就有错

研究者发现,这套用来测试模型的「冷知识题库」质量同样堪忧。

  • 歧义性:约25%的专家知识题存在歧义(例如重名研究员)。

  • 事实错误:部分标准答案本身就是错的。

最戏剧性的是,原作者Bojie Li后来坦言:这篇研究是他在AI智能体的辅助下,仅用4天时间完成的早期探索。

这种「AI写论文研究AI」的模式,被Lawrence Chan戏称为「充满槽点的Vibe-coding」。



核心理论依然坚挺

知识「不可压缩」

用严谨的话说,论文的核心思想——IKP 得分与对数参数数量之间的线性关系——仍然成立,但参数数量的估计却不成立。


解决这两个问题后,基于IKP的前沿模型估计的参数数量通常会下降,置信区间会扩大:

GPT 5.5:9.7T -> 1.5T

Claude Opus 4.7:4.0T -> 1.1T

DeepSeek R1(实际大小671B):424 B -> 760 B


难得的是,论文中的三种说法,承受住了各种测试,被证明依然是正确的。

比如,IKP分数和模型的参数呈对数线性关系。


总之,论文提出的核心模型依然得到了学界的认可:不可压缩知识探针(IKP)。

这个理论认为,大模型的能力可以分为两部分。

  1. 程序性能力(逻辑、推理、代码):这是可以压缩的。随着架构优化,更小的模型可以拥有更强的推理能力。

  2. 事实性知识(某人的出生日期、冷门研究领域):这是不可压缩的。

你可以把模型想象成一个硬盘,存一个事实就需要占几个比特位。

因此,测试模型到底知道多少「不可压缩」的冷知识,确实是目前探测闭源模型参数最科学的「测力计」。

谁才是真正的「知识之王」?

而且,尽管参数规模下调了,但各家模型的「有效容量」排名依然极具参考价值。

梯队格局

  • 第一梯队(巅峰王者):GPT-5.5。虽然可能只有1.5T左右,但它在T6级别的超冷门知识表现上依然冠绝群雄。

  • 第二梯队(贴身肉搏):Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近,竞争进入白热化。

  • MoE(混合专家模型)的秘密:研究发现,MoE模型的知识量取决于其总参数,而非每次运行时的「激活参数」。这意味着,如果你想让模型博学,堆参数依然是唯一的硬道理。

「思考模式」的玄学

测试显示,开启「思维链」(Thinking Mode)并不能显著增加模型的知识量。这再次印证了:思考能提高逻辑,但不能凭空变出你没读过的书。

最后,Lawrence Chan吐槽说:这项工作果然是AI智能体在四天内完成的,因为网站和代码库到处都体现着vibe coding的粗糙风格。


GPT-5.5参数有9.7T?

4月30日,Pine AI的首席科学家李博杰的这篇论文引发了热议。


核心观点是:事实性容量与模型规模呈对数线性关系。

论文展示了 7 个知识层级,其中T7对所有模型来说几乎都是0%左右,这表明预训练仍有巨大的提升空间。


Gemini 3.1 Pro很可能超过 10T,因为它被用作锚点,但论文中没有对其直接估算。

这意味着,我们可以在一定程度上推断不同模型的训练成本,以及它们的后训练效果——即在给定规模下,在某些非事实性任务上的表现。

在原作中,李博杰构建了一个包含1400个事实性问题的数据集,并将准确率与参数数量进行拟合。

通过反转拟合,从闭源模型的数据集得分,研究人员推断出其参数数量。


特别要注意最后一行的90%预测区间「Predicition interval, PI」非常大。

此前,就有网友注意到这些「规模只是推测,不应当作事实」。


现在许多人,想知道估算对方法论有多敏感——


李博杰直言,「同一个评估任务,结果横跨60倍区间 → 任何单一的点估计都不诚实。」


不过,IKP本是一个起点,而非终点。

作者坦诚自己匆忙上传了一篇未成熟的arXiv论文,只是为了把这个想法放出来。

论文、代码、数据集和网站都是在 4 天内完成的,主要借助 Claude Code,发布前未经同行审阅。采用下限处理和 λ=−1,是为了在开放权重模型上最大化R²。

我们期待未来的工作能将它做得更好!

Scaling Law失效了吗?

这次「参数神话」的破灭,给行业敲响了警钟:盲目崇拜大数字的时代正在过去。

GPT-5.5从10T降到1.5T,并不意味着它变弱了,而是意味着OpenAI可能在数据质量和参数效率上做了更惊人的优化。

正如Lawrence Chan在总结中所说:「GPT-5.5到底有多少参数?我们依然不确定。但这种通过探测知识容量来反推规模的方法,为我们揭开黑盒模型的面纱提供了一条新路径。」

在通往AGI的路上,我们需要的或许不再是更大的硬盘,而是更聪明的索引方式。

参考资料:

https://x.com/deedydas/status/2049523583517634862

https://x.com/justanotherlaw/status/2050399317782155726

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史上唯一“主动”辞职的太子,背后满是无奈,好在最后得了善终

史上唯一“主动”辞职的太子,背后满是无奈,好在最后得了善终

铭记历史呀
2026-05-03 16:59:36
刚在南海联合军演,转头就求中国供油,中国为啥要帮这个忙?

刚在南海联合军演,转头就求中国供油,中国为啥要帮这个忙?

阿腩讲娱乐
2026-05-03 16:22:56
今日卫视开播!36集权谋剧来袭!演员阵容正合我意

今日卫视开播!36集权谋剧来袭!演员阵容正合我意

情感的我
2026-05-03 10:59:38
苏贞昌垂帘听政!苏巧慧拼爹上台,郭音兰:你爸那套不行!

苏贞昌垂帘听政!苏巧慧拼爹上台,郭音兰:你爸那套不行!

爱看剧的阿峰
2026-05-03 18:12:51
年轻人纷纷选择躺平,真怪境外势力渗透?背后真相太现实

年轻人纷纷选择躺平,真怪境外势力渗透?背后真相太现实

芳姐侃社会
2026-05-03 17:57:55
两度离婚+生死手术!墨菲坎坷人生揭秘,与奥沙利文恩怨尘封数十年

两度离婚+生死手术!墨菲坎坷人生揭秘,与奥沙利文恩怨尘封数十年

梦忆之浅
2026-05-01 10:17:07
前湖人中锋是头号黑粉?称詹姆斯难进历史前十,他先后错失三巨星

前湖人中锋是头号黑粉?称詹姆斯难进历史前十,他先后错失三巨星

谢说篮球
2026-05-03 16:54:50
AI生成《黑神话:潘金莲》美图 性感风骚的美人

AI生成《黑神话:潘金莲》美图 性感风骚的美人

3DM游戏
2026-05-01 06:10:08
张婉婷出轨风波后首晒与宋宁峰合影 两人合体带娃出游

张婉婷出轨风波后首晒与宋宁峰合影 两人合体带娃出游

乡野小珥
2026-05-03 16:05:21
篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

牛锅巴小钒
2026-05-03 18:14:23
英国鼹鼠钻出赛道,试驾中国张雪后懵了:这不是发展快,是起飞!

英国鼹鼠钻出赛道,试驾中国张雪后懵了:这不是发展快,是起飞!

童叔不飙车
2026-04-29 22:49:35
上海车展乱象出圈!对国人百般挑剔,对外国模特无底线倒贴太讽刺

上海车展乱象出圈!对国人百般挑剔,对外国模特无底线倒贴太讽刺

行者聊官
2026-05-03 08:48:49
美媒:伊朗“退了一步”

美媒:伊朗“退了一步”

鲁中晨报
2026-05-03 11:17:04
他是开国少将,儿子被活煮,妻子被刺穿左乳,他开始报仇之路

他是开国少将,儿子被活煮,妻子被刺穿左乳,他开始报仇之路

云霄纪史观
2026-05-03 17:30:13
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
网友杭州偶遇卢靖姗,4岁混血女儿正面首曝光,颜值超高像爸爸韩庚

网友杭州偶遇卢靖姗,4岁混血女儿正面首曝光,颜值超高像爸爸韩庚

生性洒脱
2026-05-01 08:23:14
周桂良任厦门市同安区委书记

周桂良任厦门市同安区委书记

汲古知新
2026-05-03 17:15:38
“人老有3坎,熬过就高寿”,这“3坎”分别是哪年,早了解不吃亏

“人老有3坎,熬过就高寿”,这“3坎”分别是哪年,早了解不吃亏

芹姐说生活
2026-04-26 16:04:37
前国脚赵明剑现状:定居辽宁,开茶馆、搞直播,身材发福生活惬意

前国脚赵明剑现状:定居辽宁,开茶馆、搞直播,身材发福生活惬意

涵豆说娱
2026-05-03 18:59:34
转告父母:以下5种病属于老年病,无需过度治疗,建议了解

转告父母:以下5种病属于老年病,无需过度治疗,建议了解

牛锅巴小钒
2026-05-03 15:49:09
2026-05-03 19:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15123文章数 66832关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

机票价大跳水接近"腰斩" 上海出发机票最高降幅达7成

头条要闻

机票价大跳水接近"腰斩" 上海出发机票最高降幅达7成

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
教育
房产
家居
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

考懵宝妈的一道二年级思考题,思维受限

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版