网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5.5参数有10T？病毒式论文刚刚被打假，实际缩水至1.5T

2026-05-03 17:12:10　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas KingHZ

【新智元导读】五一假期前，AI社区被一篇「GPT-5.5拥有近10万亿参数」的论文刷屏，今天这项研究就被研究者打假了！研究者表示，修正论文中的各种问题后，GPT-5.5的参数很可能约为1.5T。

2026年4月底，AI界被一篇名为《不可压缩知识探针》（Incompressible Knowledge Probes，简称 IKP）的论文震动了。

论文地址：https://www.alphaxiv.org/abs/2604.24827

Pine AI的首席科学家Bojie Li发表了一项研究，声称通过一种全新的「黑盒探测法」，推算出了那些闭源模型的真实体量。

GPT-5.5：9.7万亿（9.7T）参数
Claude Opus 4.7：4.0万亿（4.0T）参数
o1：3.5万亿（3.5T）参数

这个数据瞬间引爆了社交媒体。

要知道，如果GPT-5.5真的达到了10T规模，那意味着它比传闻中的GPT-4（约1.8T）大了5倍有余。

一时间，这个参数瞬间传遍全网。

然而，仅仅几天后，反转就来了。

逻辑的漏洞：从10T到1.5T的缩水内幕

最近，来自UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon对这篇论文进行了深挖。

他们发现，这篇声称「逆推大模型规模」的爆火论文，竟然存在严重的逻辑与代码偏差。

修复这些问题后，GPT-5.5的参数约为1.5T（90% 置信区间：256B-8.3T）。

被修饰的拟合曲线

在原始论文中，作者声称没有对模型的得分进行「保底处理」（flooring）。但在复现代码时，研究者发现作者在计算小模型得分时，偷偷地将负分归零了。

科普：当模型遇到不知道的冷知识时，如果乱猜（幻觉），得分会是负数。

如果把这个「归零」操作去掉，小模型的得分会大幅下降。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后，估算的GPT-5.5规模直接从9.7T暴跌至1.5T。

「人工智障」出题：25%的题目本身就有错

研究者发现，这套用来测试模型的「冷知识题库」质量同样堪忧。

歧义性：约25%的专家知识题存在歧义（例如重名研究员）。
事实错误：部分标准答案本身就是错的。

最戏剧性的是，原作者Bojie Li后来坦言：这篇研究是他在AI智能体的辅助下，仅用4天时间完成的早期探索。

这种「AI写论文研究AI」的模式，被Lawrence Chan戏称为「充满槽点的Vibe-coding」。

核心理论依然坚挺

知识「不可压缩」

用严谨的话说，论文的核心思想——IKP 得分与对数参数数量之间的线性关系——仍然成立，但参数数量的估计却不成立。

解决这两个问题后，基于IKP的前沿模型估计的参数数量通常会下降，置信区间会扩大：

GPT 5.5：9.7T -> 1.5T

Claude Opus 4.7：4.0T -> 1.1T

DeepSeek R1（实际大小671B）：424 B -> 760 B

难得的是，论文中的三种说法，承受住了各种测试，被证明依然是正确的。

比如，IKP分数和模型的参数呈对数线性关系。

总之，论文提出的核心模型依然得到了学界的认可：不可压缩知识探针（IKP）。

这个理论认为，大模型的能力可以分为两部分。

程序性能力（逻辑、推理、代码）：这是可以压缩的。随着架构优化，更小的模型可以拥有更强的推理能力。
事实性知识（某人的出生日期、冷门研究领域）：这是不可压缩的。

你可以把模型想象成一个硬盘，存一个事实就需要占几个比特位。

因此，测试模型到底知道多少「不可压缩」的冷知识，确实是目前探测闭源模型参数最科学的「测力计」。

谁才是真正的「知识之王」？

而且，尽管参数规模下调了，但各家模型的「有效容量」排名依然极具参考价值。

梯队格局

第一梯队（巅峰王者）：GPT-5.5。虽然可能只有1.5T左右，但它在T6级别的超冷门知识表现上依然冠绝群雄。
第二梯队（贴身肉搏）：Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近，竞争进入白热化。
MoE（混合专家模型）的秘密：研究发现，MoE模型的知识量取决于其总参数，而非每次运行时的「激活参数」。这意味着，如果你想让模型博学，堆参数依然是唯一的硬道理。

「思考模式」的玄学

测试显示，开启「思维链」（Thinking Mode）并不能显著增加模型的知识量。这再次印证了：思考能提高逻辑，但不能凭空变出你没读过的书。

最后，Lawrence Chan吐槽说：这项工作果然是AI智能体在四天内完成的，因为网站和代码库到处都体现着vibe coding的粗糙风格。

GPT-5.5参数有9.7T？

4月30日，Pine AI的首席科学家李博杰的这篇论文引发了热议。

核心观点是：事实性容量与模型规模呈对数线性关系。

论文展示了 7 个知识层级，其中T7对所有模型来说几乎都是0%左右，这表明预训练仍有巨大的提升空间。

Gemini 3.1 Pro很可能超过 10T，因为它被用作锚点，但论文中没有对其直接估算。

这意味着，我们可以在一定程度上推断不同模型的训练成本，以及它们的后训练效果——即在给定规模下，在某些非事实性任务上的表现。

在原作中，李博杰构建了一个包含1400个事实性问题的数据集，并将准确率与参数数量进行拟合。

通过反转拟合，从闭源模型的数据集得分，研究人员推断出其参数数量。

特别要注意最后一行的90%预测区间「Predicition interval, PI」非常大。

此前，就有网友注意到这些「规模只是推测，不应当作事实」。

现在许多人，想知道估算对方法论有多敏感——

李博杰直言，「同一个评估任务，结果横跨60倍区间 → 任何单一的点估计都不诚实。」

不过，IKP本是一个起点，而非终点。

作者坦诚自己匆忙上传了一篇未成熟的arXiv论文，只是为了把这个想法放出来。

论文、代码、数据集和网站都是在 4 天内完成的，主要借助 Claude Code，发布前未经同行审阅。采用下限处理和 λ=−1，是为了在开放权重模型上最大化R²。

我们期待未来的工作能将它做得更好！

Scaling Law失效了吗？

这次「参数神话」的破灭，给行业敲响了警钟：盲目崇拜大数字的时代正在过去。

GPT-5.5从10T降到1.5T，并不意味着它变弱了，而是意味着OpenAI可能在数据质量和参数效率上做了更惊人的优化。

正如Lawrence Chan在总结中所说：「GPT-5.5到底有多少参数？我们依然不确定。但这种通过探测知识容量来反推规模的方法，为我们揭开黑盒模型的面纱提供了一条新路径。」

在通往AGI的路上，我们需要的或许不再是更大的硬盘，而是更聪明的索引方式。

参考资料：

https://x.com/deedydas/status/2049523583517634862

https://x.com/justanotherlaw/status/2050399317782155726

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

多变量神经缩放定律迈向大一统：Mila联手DeepMind提出UNSL

机器之心Pro 2026-05-28 14:33:16
0 跟贴 0
为什么让 AI 理解世界的前提是读懂因果？

机器之心Pro 2026-07-21 16:04:45
0 跟贴 0

GPT-5.6今起大降价，最大幅度80%！

量子位 2026-07-31 10:55:41
10 跟贴 10

OpenAI全球用户破10亿！全新模型Astra曝光，疑似GPT-6

新智元 2026-08-01 13:35:38
5 跟贴 5
给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0

OpenAI一夜大降价！GPT-5.6 Luna暴降80%

机器之心Pro 2026-07-31 12:10:08
4 跟贴 4

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0
我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
0 跟贴 0

GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0
暴增389%！DeepSeek卷到白菜价，这家公司却靠卖Token赚翻了

新智元 2026-07-31 21:17:23
64 跟贴 64
硅谷百亿美金押注「AI造AI」，清华系创业团队反手把模型开源了！

新智元 2026-08-01 11:31:02
0 跟贴 0
字节越来越善变了

虎嗅APP 2026-08-01 16:50:24
5 跟贴 5
DeepSeek V4-Flash正式版来了！AI开发者实测：价格“很香”，Agent能力直追顶级模型

每日经济新闻 2026-08-01 21:53:14
0 跟贴 0
AI越来越便宜，认真回答却开始变贵——算力变贵了吗？

虎嗅APP 2026-08-01 19:00:22
2 跟贴 2
长于人工智能时代的“15后”，“好的关系”是起点也是终点

秦朔朋友圈 2026-08-02 00:05:46
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
物理学的翻车：顶级理论相差120个零，底层常识面临崩塌

嘎哈大哥科普 2026-07-31 12:16:19
13 跟贴 13
GPT-5.6一夜爆砍80%，1元屠杀最贵Claude！

新智元 2026-07-31 08:58:10
24 跟贴 24
华为工程师，偷偷用中文写代码，这事儿在硅谷炸锅了

趣料百宝箱 2026-07-29 20:39:52
9 跟贴 9
有的时候看得更明白一些，事情也会更顺#强者思维逻辑 #认知提升

叫我金主编 2026-07-29 07:26:07
0 跟贴 0
6万人涌入西班牙飞地 4.8万人已回

红星新闻 2026-08-01 13:46:42
2161 跟贴 2161
男子晒5辆豪车、179万余额，还自称是浙江一大公司老板的儿子！知情人士：他的真实身份你意想不到

大风新闻 2026-08-01 08:37:46
1625 跟贴 1625
好莱坞幕后制作团队，通过模型拍摄海啸侵袭城市场景

车马点兵V 2026-07-28 14:27:25
8 跟贴 8
儿子受欺负妻子上前理论，希望对方道歉！

博武弈 2026-07-29 21:25:22
1 跟贴 1
Claude Code到底有多费token？对比实验来了：三大框架最多差30倍

机器之心Pro 2026-07-31 21:55:00
41 跟贴 41
打开这些不起眼的小黑盒，里面全是让男人走不动道的“硬菜”

轻武世界 2026-07-31 22:22:00
3 跟贴 3
员工跪在女顾客面前，老板本想上前理论，下秒却直接改口

筱梦搞笑 2026-08-01 15:38:39
1 跟贴 1
网友：“这个‘中华老字号’是假的吧！避雷！”黄浦：连夜执法，现已停业！

上海黄浦 2026-08-01 16:38:03
7 跟贴 7
小猫和车上的“小猫牌子”对视，下一秒就开启了“哈气”模式。网友：小猫触发底层代码了

奇妙观探 2026-07-31 14:03:41
0 跟贴 0
俄高官:欧洲正为与俄开战做准备俄将调整军事等计划

鲁中晨报 2026-08-01 16:58:53
1300 跟贴 1300
淮南市破获一起特大跨省制售假冒案件！

淮南帮 2026-08-01 17:14:58
0 跟贴 0
第12批集采中标结果出炉 10款原研药价格被打下来了

第一财经资讯 2026-08-01 08:34:13
1147 跟贴 1147
夏季多病高发，这份综合防护指南请收好

健康双流 2026-08-01 09:10:32
0 跟贴 0
变形金刚理论：‘红蜘蛛大战大黄蜂到底孰强孰弱’

寒松说剧呀 2026-07-28 18:59:35
2 跟贴 2
俄军一天压制10个旅夺下舍甫琴科：顿涅茨克战场的消耗战逻辑

一饮山河 2026-07-30 12:30:05
1 跟贴 1
纽约街头常见景象，前三杯符合逻辑，第四杯是什么鬼！

奇葩逗趣展览馆 2026-07-28 11:11:40
4 跟贴 4
荆州街头有人免费送大几千的学习机？小心别被套路！

更荆州 2026-08-01 20:35:47
0 跟贴 0
昨晚外滩被挤爆！人中午就来占位，究竟为了什么？

上海新闻广播 2026-08-01 15:11:00
173 跟贴 173
宁咏，因工作需要已调离湖北

新京报 2026-08-01 19:30:09
7 跟贴 7

林徽因的这件上衣，即便放到现在也依然十分耐看！

林徽因的这件上衣，即便放到现在也依然十分耐看！

名岂文章著

2026-08-01 22:25:02

哈马斯自废武功！伊朗发3份声明，以军发生暴动，特朗普崩溃咆哮

哈马斯自废武功！伊朗发3份声明，以军发生暴动，特朗普崩溃咆哮

国际法大视野

2026-07-31 22:22:11

网友：“这个‘中华老字号’是假的吧！避雷！”黄浦：连夜执法，现已停业！

网友：“这个‘中华老字号’是假的吧！避雷！”黄浦：连夜执法，现已停业！

上海黄浦

2026-08-01 16:38:03

美国华人：中国引以为豪的扫码支付，其实就是最不聪明的发明？

美国华人：中国引以为豪的扫码支付，其实就是最不聪明的发明？

温读史

2026-07-25 15:12:16

“连个坐的地方都没有”！深圳网红步行街遭质疑：好看不好用？官方回应

“连个坐的地方都没有”！深圳网红步行街遭质疑：好看不好用？官方回应

南方都市报

2026-08-01 13:10:31

5年2.87亿谈崩！杜伦被逼签1年962万，这场豪赌谁先眨眼

5年2.87亿谈崩！杜伦被逼签1年962万，这场豪赌谁先眨眼

涵有话说

2026-08-01 10:40:24

Here we go！罗马诺：阿森纳中场内尔高700万镑转会埃弗顿

Here we go！罗马诺：阿森纳中场内尔高700万镑转会埃弗顿

懂球帝

2026-08-01 23:59:12

网上卖的很火，实则都是“智商税”的8个家居产物！你入坑几个？

网上卖的很火，实则都是“智商税”的8个家居产物！你入坑几个？

抠搜侠

2026-08-01 14:04:43

蔚来销量再次大增！

新浪财经

2026-08-01 17:51:44

我把铺子租给一对夫妻5年，租金4000从没涨过，前几天去收租，新租客拿出一份转让合同，我看到上面的转让费，当时就心凉了

我把铺子租给一对夫妻5年，租金4000从没涨过，前几天去收租，新租客拿出一份转让合同，我看到上面的转让费，当时就心凉了

晓艾故事汇

2026-07-31 08:16:15

海外破50亿，中国预售仅385万，《奥德赛》踩了中国观众三大雷区

海外破50亿，中国预售仅385万，《奥德赛》踩了中国观众三大雷区

靠谱电影君

2026-08-01 20:36:17

一家三口只喝矿泉水从不烧水，全家去体检，医生的话让他们傻眼了

一家三口只喝矿泉水从不烧水，全家去体检，医生的话让他们傻眼了

路医生健康科普

2026-07-29 21:55:03

广州正佳广场：那活力一点都不像21岁高龄的老商场

广州正佳广场：那活力一点都不像21岁高龄的老商场

小陆搞笑日常

2026-07-31 00:24:41

李亚鹏晒2003年哈雷纪念版摩托车引质疑：“超了13年还没报废啊”

李亚鹏晒2003年哈雷纪念版摩托车引质疑：“超了13年还没报废啊”

快科技

2026-08-01 19:16:04

公务员大势已定不出意外的话，未来5年，体制内或将出现巨大变化

公务员大势已定不出意外的话，未来5年，体制内或将出现巨大变化

解说阿洎

2026-07-31 10:17:22

美媒：中国于2016年宣布研制轰-20轰炸机，十年过去仍未确认首飞

美媒：中国于2016年宣布研制轰-20轰炸机，十年过去仍未确认首飞

零度Military

2026-08-01 08:08:29

日本长崎、广岛市长发声

上观新闻

2026-07-31 22:13:53

记者：因凡蒂诺已失去大多数FIFA官员支持，注定要下台

记者：因凡蒂诺已失去大多数FIFA官员支持，注定要下台

懂球帝

2026-08-01 00:54:26

“被AI合成不雅视频造谣”保时捷女销冠回应：已立案，找到谣言“源头”，正起诉维权，“我不认识他，他欠我一个道歉”

“被AI合成不雅视频造谣”保时捷女销冠回应：已立案，找到谣言“源头”，正起诉维权，“我不认识他，他欠我一个道歉”

每日经济新闻

2026-08-01 01:51:33

8月1日俄乌：特朗普态度又变了，泽连斯基透露乌军伤亡人数

8月1日俄乌：特朗普态度又变了，泽连斯基透露乌军伤亡人数

山河路口

2026-08-01 18:22:58

AI产业主平台领航智能+时代

15841文章数 66989关注度

往期回顾全部

科技要闻

特斯拉拆不掉中国制造

头条要闻

德意等22国领导人紧急签联名信西班牙首相反怼:自私

头条要闻

德意等22国领导人紧急签联名信西班牙首相反怼:自私

体育要闻

1米76的他，为什么是史上最强中卫之一？

娱乐要闻

韩路批董宇辉“又当又立”？

财经要闻

长鑫科技四万亿市值背后的资本与周期

汽车要闻

历史性里程碑时刻零跑7月交付达101267台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

房产

旅游

健康

公开课

手机要闻

三星 Galaxy S26 FE 影像细节再曝，新机即将发布

房产要闻

1700亿砸下！信息量巨大！海南甩出又一个超级规划！

旅游要闻

四川盐边火把节到底有多好耍？70秒带你“云”玩一场！

中风易复发！谈中风康复与二级预防

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版