网易首页 > 网易号 > 正文 申请入驻

Grok 3是否意味着大力出奇迹的大模型法则仍然成立?

0
分享至

【编者按】2月18日,埃隆·马斯克旗下的人工智能公司 系列模型,使用 20 万 GPU,并被马斯克誉为“地球上最聪明的AI”。对此,也引申出一个话题,那就是预训练阶段的 Scaling Law 是否依旧适用。在算力需求与成本之间,究竟是大规模 GPU 依然是制胜法宝,还是更精巧的算法创新将主导未来的大模型竞争?一向深入浅出分析AI大模型背后的张俊林老师带来了对预训练阶段Scaling Law是否仍成立的深度拆解。

作者 | 张俊林

责编 | 梦依丹

原文链接:https://m.weibo.cn/status/5135484206713580

媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了20万张英伟达H100卡,效果力压OpenAI o3 mini和Deepseek R1,就转向说Scaling law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹……

这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。

预训练阶段的Scaling Law是否仍然成立

预训练阶段的Scaling Law成立吗?

当然是成立的,所谓“Scaling Law撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。

按照Chinchilla Scaling Law推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低,这是为何大家转到RL Scaling Law和Test Time Scaling Law的原因,是因为付出同样的算力,在后面两个阶段大模型智商提升更明显,就是性价比高。

目前可以提高模型效果的Scaling方法,按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段Scaling Law(数据不够了,只能推大模型尺寸),有性价比高的Scaling,当然优先做这种,性价比低的Scaling,只有在没有性价比更高的情况下才会采用。这跟购物一个道理,有性价比高的当然不会去买性价比低的商品。

如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling law,也不是说模型效果就提不上去了,大家仍然可以回归预训练阶段的Scaling Law,没有新数据也没关系,推大模型尺寸规模就可以,效果仍然会上升。但这基本是最后的选择,没办法的办法,只要有性价比高的方法就不会走这条路。

有人问了:那按照你的意思,囤那么多GPU算力,其实对训最好的模型也没啥用?要是按照上面的理论,那确实是没有太大必要,比如Deepseek 2000卡也可以作出最好的模型不是。但是卡多有个好处,就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验,你有10个新想法,如果只有2000张卡,可能得跑5天才能得出结论,要是有几万张卡,可能1天就能得出结论,所以卡多对于探索效率是有极大帮助的。卡多创新多,这点肯定成立。

Grok 3基座模型(对标Deepseek V3,非R1这种逻辑推理模型)

为何Grok 3作为通用基座模型,它的评测指标只有数学、科学和代码数据集?没有通用能力比如最常用的MMLU指标的对比,这是不太规范的对比模式。推断可能Grok 3的通用能力相对OpenAI和Deepseek的模型没有大幅提升,所以不拿出来比?

如果想要提升基座模型的数学、科学和代码能力,无论从方法还是从成本角度来讲,难度并不大,目前比较标准的做法是类似Deepseek V3从Deepseek R1蒸馏数学、代码等逻辑题的长COT数据,即深度思考过程数据,就是说把深度思考长COT数据引入基座的Post-Training阶段、甚至前置到预训练阶段(所谓大模型“左脚(Deepseek基座)踩右脚(Deepseek R1)自我飞升”的模式),这样就能大幅提升基座模型在数学和代码方面相关的能力,也就是Grok3宣传具备的“有思维链推理和自我纠错机制”,评测指标看着会比较好看,而且蒸馏的数据总量也不会太大(几百B级别应该够了),成本很低,对算力要求不高。

OpenAI 很快会发布的非逻辑推理模型GPT 4.5,大概也应是类似的思路,从o3模型蒸馏COT数据,用深度思考数据来提升GPT 4.5基座模型的智商,大模型“左脚踩右脚自我飞升”大法,这会是之后基座模型提升能力的主要手段。

Grok 3的算力消耗是Grok 2的10倍,如果遵照Chinchilla Scaling Law,最佳做法是Grok 3的训练数据量比Grok 2增加3倍,模型大小同时比Grok 2增加3倍(但是目前的趋势是减小模型大小,增大数据量[就是说“小模型大数据”的模式],尽管这样不满足训练最优原则,但因为模型尺寸小了,所以这种模型更适合在线推理服务,降低服务成本)。

如果像发布会宣称的,Grok 3耗费算力是Grok 2的10倍消息为真的话,那有两种可能。一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从10T增长到30T(目前文本模型使用的数据量,最多到18T到20T之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长3倍左右;第二种可能是训练数据量比20T增加的不多,如果这样可以推出Grok3模型尺寸比Grok 2要大很多,至少4到5倍起步(若新增数据不多,那只能靠增加模型尺寸来消耗新增算力)。不论是哪种可能,Grok 3的模型大小肯定比Grok 2大了很多,而Grok 2模型本身可能就不小(Grok 2发布网页评测效果超过Llama 3.1 405B,所以无论数据还是模型大小,都不会太小,要是Dense模型, 70B是最小的估计了),所以Grok 3的尺寸规模很可能不是一般的大(感觉在200B到500B之间)。

很明显,Grok 3仍然在采取推大基座模型尺寸的“传统”做法,也就是上面“Scaling Law”部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力,上面分析过,这种做法是性价比很低的。比较时髦的做法是把训练重心放在RL Scaling方面,性价比会高太多。但是为啥他要做这种赔本买卖呢?在后面会给出一个可能的解释。

Grok 3逻辑推理版本(深度思考版本,对标Deepseek R1)

Grok 3的深度思考版本,不说体验,单从评测指标看,达到或者超过了o3 mini,确实是目前效果最好的,或者说最好的之一没有什么问题。

说回上面提到的问题,为啥明知靠推大预训练阶段模型尺寸规模性价比低,Grok 3还要用这种模式呢?很可能内在的原因在于(推断无证据):Post-Training阶段采取RL Scaling,其效果可能跟基座模型的大小是有正相关关系的,就是说,同样的RL阶段的算力消耗,如果基座模型尺寸更大,则RL 阶段的Scaling效果越好。只有这样,才有在预训练阶段尽量把模型规模推大的必要性。而我们可以假设,Grok 3之所以采取这种过于耗费算力,看着性价比不高的方式,是希望通过加大基座,把深度思考版本的能力明显提起来。

貌似Deepseek R1效果很好又开源,获得一片好评,但大家想要实际用起来,会发现基座太大,部署难度和消耗资源太高,对下游应用不太友好。那为啥Deepseek非得推这种对下游应用来说明显过大的模型呢?(小点的蒸馏模型看着指标很好,但是实际应用效果貌似差不少),是否也是因为基座模型如果不够大,深度思考模型效果就没那么好的原因?

如果上述假设成立,那意味着:三个Scaling Law(Pre-train、RL 、Test Time),从提高大模型智商的性价比来说,由高到低是:Test Time > RL > Pre-Train,这个是之前的结论。但如果上述假设成立,说明Test Time Scaling的天花板最低,它的天花板依赖于RL阶段的Scaling能力,而RL阶段Scaling天花板次低,它的天花板依赖于预训练阶段Pre-Train的Scaling?如果这样,如果有一天当RL和Test Time天花板到顶,意味着我们可以再启动一轮,去推大基座模型的模型尺寸,RL阶段Scaling 的天花板随之升高,然后可以再去Scale RL和Test Time,就进一步得到智商更高的大模型。如果这成立,那意味着AGI的解决方案已经完整了?其实不需要新的Scaling Law存在就够?

上述推论,是在一个前提成立的条件下的推出来的,这个前提是:Grok 3耗费这么大算力推大模型规模,这是个深思熟虑或小规模实验的结果,而不是仅仅受到之前老观念(预训练阶段算力越高效果越好)影响下的决策。如果这个前提不成立,则上述推论不成立。总之,一切责任在马斯克,Over。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“当妈妈后,真的很怕死……”千万粉丝网红“一栗小莎子”疑患淋巴瘤并停工化疗,儿子还不到两岁

“当妈妈后,真的很怕死……”千万粉丝网红“一栗小莎子”疑患淋巴瘤并停工化疗,儿子还不到两岁

极目新闻
2026-01-23 13:31:27
越共中央选出新一届政治局成员,共19人

越共中央选出新一届政治局成员,共19人

观察者网
2026-01-23 18:36:08
两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

两年了,为何许家印迟迟不判刑?真相比你想象的更复杂!

李云飞Afey
2026-01-20 11:43:34
演员黄景瑜将上太空旅游,穿越者公司:选他是因为他以硬汉形象著称,公司愿景是实现大众的太空梦

演员黄景瑜将上太空旅游,穿越者公司:选他是因为他以硬汉形象著称,公司愿景是实现大众的太空梦

极目新闻
2026-01-23 12:57:50
周扒皮看了都要流泪,山西环卫工戴着定位器在冰天雪地里扫大街

周扒皮看了都要流泪,山西环卫工戴着定位器在冰天雪地里扫大街

巴城的城
2026-01-23 18:52:17
现场直击! 刚刚, 兰兰终于现身澳洲法庭! 正式低头承认

现场直击! 刚刚, 兰兰终于现身澳洲法庭! 正式低头承认

澳微Daily
2026-01-23 13:16:55
嫣然天使儿童医院房东确为医美机构思妍丽创始人张毅

嫣然天使儿童医院房东确为医美机构思妍丽创始人张毅

界面新闻
2026-01-23 19:58:07
潘文江接任越南二号位

潘文江接任越南二号位

蛙斯基娱乐中
2026-01-23 15:57:01
泰安市岱岳区人大常委会副主任李成勇被查

泰安市岱岳区人大常委会副主任李成勇被查

鲁中晨报
2026-01-23 17:11:02
嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

嫣然医院房东心态崩了?从强硬要李亚鹏道歉,到开始求过个好年

安宁007
2026-01-22 23:02:37
从千年名茶到化学试剂:我们的茶叶怎么了?

从千年名茶到化学试剂:我们的茶叶怎么了?

富贵说
2026-01-21 11:19:58
女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

离离言几许
2026-01-23 00:01:41
最快几天内,恐要开战!伊朗革命卫队开始转移大量导弹和无人机

最快几天内,恐要开战!伊朗革命卫队开始转移大量导弹和无人机

青青子衿
2026-01-23 02:15:44
孙涛回应闫学晶事件,头发花白委屈到哭,妻子受牵连,朋友误会他

孙涛回应闫学晶事件,头发花白委屈到哭,妻子受牵连,朋友误会他

阿纂看事
2026-01-23 14:36:19
数十次点名中国,特朗普大闹达沃斯到底想干吗?

数十次点名中国,特朗普大闹达沃斯到底想干吗?

看看新闻Knews
2026-01-23 19:21:01
李亚鹏:欠债4.5亿却不碰一分善款,你这个笨蛋终于赢了全世界

李亚鹏:欠债4.5亿却不碰一分善款,你这个笨蛋终于赢了全世界

深度报
2026-01-22 23:21:39
“底薪3000元24小时待岗”,32岁程序员周末猝死,妻子:若时光倒流,一定逼他辞职!公司去年三季报净利润8.67亿元

“底薪3000元24小时待岗”,32岁程序员周末猝死,妻子:若时光倒流,一定逼他辞职!公司去年三季报净利润8.67亿元

每日经济新闻
2026-01-22 22:43:06
陈育煌任吉林省副省长

陈育煌任吉林省副省长

新京报
2026-01-23 19:13:08
联合国起不到作用,那就解散吧!联合国秘书长古特雷斯发出警告

联合国起不到作用,那就解散吧!联合国秘书长古特雷斯发出警告

南权先生
2026-01-23 15:44:36
上海市政府发布一组人事任免信息:陈殷华任中共一大纪念馆馆长

上海市政府发布一组人事任免信息:陈殷华任中共一大纪念馆馆长

澎湃新闻
2026-01-23 18:17:07
2026-01-23 21:08:49
CSDN incentive-icons
CSDN
成就一亿技术人
26279文章数 242220关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

媒体:特朗普在达沃斯演讲数十次点名中国 重点就两个

头条要闻

媒体:特朗普在达沃斯演讲数十次点名中国 重点就两个

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

时尚
旅游
教育
公开课
军事航空

短剧都没有她的故事精彩?62岁活成了多少人羡慕的样子

旅游要闻

上海市中心最大年宵花市来了,姹紫嫣红,“价格很香”,几乎没人空手而归

教育要闻

本科生就业比例增长较多的行业,揭晓!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版