网易首页 > 网易号 > 正文 申请入驻

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

0
分享至



机器之心编辑部

最近,研究人员李博杰在 arXiv 发布论文,提出一个名为「不可压缩知识探针」的评测框架,尝试仅通过黑盒 API 调用,来逆向估算任意 LLM 的参数规模。



  • 论文标题:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
  • 论文地址:https://arxiv.org/pdf/2604.24827

该研究的灵感源于一项持续三年的非正式测试。据李博杰介绍,其团队成员长期向各代主流大模型提出同一个冷门问题:「你了解中科大 Hackergame 吗?」(一项 CTF 网络安全竞赛)。



跨越多个版本的观察结果,直观展示了模型对世界知识认知的发展:2024 年 5 月,GPT-4o 对该赛事题目存在明显的「幻觉」与编造;至 2025 年 2 月,Claude 3.7 Sonnet 已能准确列出 2023 年赛季的 19 道题目;而到了 2026 年 4 月,多个前沿模型已能精确回忆起连续多届赛事的具体细节。

受此启发,在 DeepSeek-V4 发布后,研究团队利用 AI Agent 历时四天自主构建了完整的 IKP 正式数据集。该数据集包含 1400 个问题,按信息的稀缺程度划分为 7 个层级,并在涵盖 27 家厂商的 188 个模型上进行了全面测试。

研究的核心假设在于:模型的逻辑推理能力可以通过训练技巧被压缩或蒸馏,但对冷门「事实性知识」的记忆容量则无法大幅压缩,其主要取决于模型的物理参数规模。

基于此,研究者在 89 个参数量已知的开源模型(规模从 1.35 亿到 1.6 万亿参数)上拟合出事实准确率与参数量的对数线性关系,拟合优度 R² = 0.917,并据此对闭源模型进行参数估算。

根据该方法,论文给出的估算数字(90% 置信区间约为 0.3 至 3 倍)如下:

  • GPT-5.5:约 9 万亿参数
  • Claude Opus 4.7:约 4 万亿参数
  • GPT-5.4:约 2.2 万亿参数
  • Claude Sonnet 4.6:约 1.7 万亿参数
  • Gemini 2.5 Pro:约 1.2 万亿参数

论文同时指出另外两项发现:

一是引用数量和 h 指数并不能有效预测研究者是否被模型记住,模型更倾向于记住那些产生了领域性影响的工作,而非高产但影响相对分散的学者;

二是跨越三年的 96 个开源模型数据显示,事实记忆容量的时间系数在统计上接近于零,这与此前「Densing Law」所预测的效率随时间提升的规律相悖,研究者据此认为推理能力基准趋于饱和,而事实容量仍主要受制于参数规模。

这组直观的数据迅速在技术社区传播并引发广泛讨论,但也伴随着巨大的争议。



有博主基于这组估算数据,结合近期 Claude Opus 4.7 在部分长文本任务中的主观体验波动,推演出一套完整的逻辑:Anthropic 因算力储备不足(仅为 OpenAI 的四分之一),在训练 Mythos 模型后资源见底,被迫将 Opus 4.7 的参数量从上一代的 5.3T 「反向升级」阉割至 4T;而 OpenAI 则凭借充足的算力将 GPT-5.5 堆到了 9T,从而实现了体验上的反转。



也有多位研究者和从业者对估算数字及方法论提出了不同程度的质疑。

对于 GPT-5.5 约 9 万亿参数的估算,部分用户认为与实际服务能力不符,指出若规模真达到这一量级,OpenAI 现有基础设施难以支撑此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度与 10 倍参数差距并不匹配。有人认为两者规模比约在 2 倍左右更为合理。



同时,定向引入「合成数据」进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰「事实知识不可压缩」的核心前提。



根据该方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的规模约 1.7T,而行业已知国内模型 Kimi k2.6 和 GLM 5.1 约为 800B。若参数差距仅在两倍左右,单纯的数据差异极难解释目前两者间的巨大性能鸿沟。



此外,业内长期流传的 GPT-4 规模约 1.7T,这与论文估算的结果出入极大。



发起讨论的另一位 X 博主也补充说明:「这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明某些模型的估算可能相差甚远。」



当然,在争议与质疑之外,技术社区中也涌现出了许多极具建设性的正向探讨。

例如,有用户认为 MoE 架构和稠密模型在知识压缩效率上可能存在本质不同(MoE 的事实可能被分散在不同专家中),建议将这两类模型分开统计以观察趋势。







对这组数据你怎么看?

https://x.com/deedydas/status/2049523583517634862

https://x.com/bojie_li/status/2049314403208896521

https://www.zhihu.com/pin/2032769685012361774

https://x.com/yiran2037840/status/2049827667034439821

https://x.com/Yampeleg/status/2049573913399607711

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
前央视主持郎永淳回应退休工资5万,妻子收入3000多元

前央视主持郎永淳回应退休工资5万,妻子收入3000多元

仙味少女心
2026-05-01 01:18:01
“观音回到了故乡”,82岁演员左大玢现身河南香山寺,该寺被称为“观音祖庭”,大批游客偶遇合影,景区回应

“观音回到了故乡”,82岁演员左大玢现身河南香山寺,该寺被称为“观音祖庭”,大批游客偶遇合影,景区回应

极目新闻
2026-05-01 16:12:53
20多年前陈红在陈凯歌家拍照,她躺在沙发上的样子,堪称人间尤物!

20多年前陈红在陈凯歌家拍照,她躺在沙发上的样子,堪称人间尤物!

感觉会火
2026-04-28 21:18:46
“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

上观新闻
2026-05-01 13:21:07
人活着,说到底就三样东西:生理需求居首,真正懂的人没几个

人活着,说到底就三样东西:生理需求居首,真正懂的人没几个

朗威谈星座
2026-05-01 14:28:21
15年前在“中国黄金”买的20克金条,检测发现仅有9克且不含一点黄金……女子呼吁:快检查家中投资金条;商场回应

15年前在“中国黄金”买的20克金条,检测发现仅有9克且不含一点黄金……女子呼吁:快检查家中投资金条;商场回应

深圳晚报
2026-05-01 22:52:48
堵到怀疑人生!五一全国“最堵路段”终极盘点,第一名实至名归

堵到怀疑人生!五一全国“最堵路段”终极盘点,第一名实至名归

阿莱美食汇
2026-05-01 00:18:58
回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

千秋文化
2026-04-28 20:20:16
局势有变?取消禁令响彻台岛,大陆11人登上金门,国台办把话挑明

局势有变?取消禁令响彻台岛,大陆11人登上金门,国台办把话挑明

兵器海陆空视频
2026-04-30 19:14:33
58岁母亲奔赴杭州帮女儿带娃,说了一句“给我一间房,不用大”。

58岁母亲奔赴杭州帮女儿带娃,说了一句“给我一间房,不用大”。

朗威谈星座
2026-05-01 12:49:16
张雪机车再战WSBK匈牙利站SSP排位赛 53号车手瓦伦丁·德比斯获得第6位

张雪机车再战WSBK匈牙利站SSP排位赛 53号车手瓦伦丁·德比斯获得第6位

红星新闻
2026-05-02 00:21:18
劳务派遣已疯魔到何种地步?网友说:收钱上岗、教师医生很多都是

劳务派遣已疯魔到何种地步?网友说:收钱上岗、教师医生很多都是

黯泉
2026-05-02 00:20:03
60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

心理观察局
2026-05-01 17:36:26
撕破脸!皇马大将怒斥阿韦洛亚:别再联系我

撕破脸!皇马大将怒斥阿韦洛亚:别再联系我

奶盖熊本熊
2026-05-02 01:59:43
319票全票通过,没有反对票,没有弃权,也没有掌声。

319票全票通过,没有反对票,没有弃权,也没有掌声。

空想之喵
2026-05-02 02:41:33
禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

知鉴明史
2026-04-30 18:55:06
特斯拉中国再推促销方案:5月31日前,购买Model 3、Model Y、Model Y L车型5年0息

特斯拉中国再推促销方案:5月31日前,购买Model 3、Model Y、Model Y L车型5年0息

鲁中晨报
2026-04-29 10:48:05
中美关系的反转正在发生:美国对华鹰派,开始睁眼看中国

中美关系的反转正在发生:美国对华鹰派,开始睁眼看中国

浪子阿邴聊体育
2026-05-01 05:46:08
妻子嫌他“一股老年味”,73岁张纪中刮掉蓄了30年的胡子!

妻子嫌他“一股老年味”,73岁张纪中刮掉蓄了30年的胡子!

东方不败然多多
2026-05-02 02:45:57
朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

朱温被杀前夜,叫儿媳王氏前来服侍,儿媳告诫:小心你父亲要杀你

铭记历史呀
2026-05-02 00:11:01
2026-05-02 06:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12902文章数 142639关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
手机
艺术
公开课
军事航空

PS玩家团结起来!请愿复活第一方3A 耗时7年却被取消

手机要闻

曝iPhone18Pro相机史诗级升级,这次你期待吗?

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版