Grok 3是否意味着大力出奇迹的大模型法则仍然成立？|算法|卡多|基座|模态|grok

Grok 3是否意味着大力出奇迹的大模型法则仍然成立？

2025-02-20 19:17:55　来源: CSDN

北京举报

分享至

【编者按】2月18日，埃隆·马斯克旗下的人工智能公司系列模型，使用 20 万 GPU，并被马斯克誉为“地球上最聪明的AI”。对此，也引申出一个话题，那就是预训练阶段的 Scaling Law 是否依旧适用。在算力需求与成本之间，究竟是大规模 GPU 依然是制胜法宝，还是更精巧的算法创新将主导未来的大模型竞争？一向深入浅出分析AI大模型背后的张俊林老师带来了对预训练阶段Scaling Law是否仍成立的深度拆解。

作者 | 张俊林

责编 | 梦依丹

原文链接：https://m.weibo.cn/status/5135484206713580

媒体风向变化太快，让人目不暇接。早上还在夸Deepseek成本低，性价比高，预训练Scaling Law死了，不需要太多机器和GPU卡，性价比优先，英伟达休矣；中午Grok 3一出来，说是用了20万张英伟达H100卡，效果力压OpenAI o3 mini和Deepseek R1，就转向说Scaling law还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹……

这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。

预训练阶段的Scaling Law是否仍然成立

预训练阶段的Scaling Law成立吗？

当然是成立的，所谓“Scaling Law撞墙”，大家普遍遇到的问题是数据不够了，没有大量新数据，导致预训练阶段的Scaling Law走势趋缓，注意是趋缓但不是停顿，预训练阶段的Scaling Law并没到天花板。

按照Chinchilla Scaling Law推断，即使没有新数据，也并不意味着模型效果提不上去了，很简单，只要增加基座模型尺寸，效果仍然会提高，只是从付出的算力和获得的效果提升来说很不合算，性价比过低，这是为何大家转到RL Scaling Law和Test Time Scaling Law的原因，是因为付出同样的算力，在后面两个阶段大模型智商提升更明显，就是性价比高。

目前可以提高模型效果的Scaling方法，按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段Scaling Law(数据不够了，只能推大模型尺寸)，有性价比高的Scaling，当然优先做这种，性价比低的Scaling，只有在没有性价比更高的情况下才会采用。这跟购物一个道理，有性价比高的当然不会去买性价比低的商品。

如果哪天RL Scaling Law和Test Time Scaling Law到了天花板，又没有找到新的性价比更合算的Scaling law，也不是说模型效果就提不上去了，大家仍然可以回归预训练阶段的Scaling Law，没有新数据也没关系，推大模型尺寸规模就可以，效果仍然会上升。但这基本是最后的选择，没办法的办法，只要有性价比高的方法就不会走这条路。

有人问了：那按照你的意思，囤那么多GPU算力，其实对训最好的模型也没啥用？要是按照上面的理论，那确实是没有太大必要，比如Deepseek 2000卡也可以作出最好的模型不是。但是卡多有个好处，就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验，你有10个新想法，如果只有2000张卡，可能得跑5天才能得出结论，要是有几万张卡，可能1天就能得出结论，所以卡多对于探索效率是有极大帮助的。卡多创新多，这点肯定成立。

Grok 3基座模型（对标Deepseek V3，非R1这种逻辑推理模型）

为何Grok 3作为通用基座模型，它的评测指标只有数学、科学和代码数据集？没有通用能力比如最常用的MMLU指标的对比，这是不太规范的对比模式。推断可能Grok 3的通用能力相对OpenAI和Deepseek的模型没有大幅提升，所以不拿出来比？

如果想要提升基座模型的数学、科学和代码能力，无论从方法还是从成本角度来讲，难度并不大，目前比较标准的做法是类似Deepseek V3从Deepseek R1蒸馏数学、代码等逻辑题的长COT数据，即深度思考过程数据，就是说把深度思考长COT数据引入基座的Post-Training阶段、甚至前置到预训练阶段（所谓大模型“左脚（Deepseek基座）踩右脚（Deepseek R1）自我飞升”的模式），这样就能大幅提升基座模型在数学和代码方面相关的能力，也就是Grok3宣传具备的“有思维链推理和自我纠错机制”，评测指标看着会比较好看，而且蒸馏的数据总量也不会太大（几百B级别应该够了），成本很低，对算力要求不高。

OpenAI 很快会发布的非逻辑推理模型GPT 4.5，大概也应是类似的思路，从o3模型蒸馏COT数据，用深度思考数据来提升GPT 4.5基座模型的智商，大模型“左脚踩右脚自我飞升”大法，这会是之后基座模型提升能力的主要手段。

Grok 3的算力消耗是Grok 2的10倍，如果遵照Chinchilla Scaling Law，最佳做法是Grok 3的训练数据量比Grok 2增加3倍，模型大小同时比Grok 2增加3倍（但是目前的趋势是减小模型大小，增大数据量[就是说“小模型大数据”的模式]，尽管这样不满足训练最优原则，但因为模型尺寸小了，所以这种模型更适合在线推理服务，降低服务成本）。

如果像发布会宣称的，Grok 3耗费算力是Grok 2的10倍消息为真的话，那有两种可能。一种是数据量增长极大，这样只能是增加了大量多模态数据，比如数据量从10T增长到30T（目前文本模型使用的数据量，最多到18T到20T之间，基本到顶，再多没有了，要大幅增加只能加多模态数据，但是增加多模态数据对提升大模型智商帮助不大，所以这个增量按理说不应该太大），如果这样推算，Grok3的模型规模增长3倍左右；第二种可能是训练数据量比20T增加的不多，如果这样可以推出Grok3模型尺寸比Grok 2要大很多，至少4到5倍起步（若新增数据不多，那只能靠增加模型尺寸来消耗新增算力）。不论是哪种可能，Grok 3的模型大小肯定比Grok 2大了很多，而Grok 2模型本身可能就不小（Grok 2发布网页评测效果超过Llama 3.1 405B，所以无论数据还是模型大小，都不会太小，要是Dense模型， 70B是最小的估计了），所以Grok 3的尺寸规模很可能不是一般的大（感觉在200B到500B之间）。

很明显，Grok 3仍然在采取推大基座模型尺寸的“传统”做法，也就是上面“Scaling Law”部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力，上面分析过，这种做法是性价比很低的。比较时髦的做法是把训练重心放在RL Scaling方面，性价比会高太多。但是为啥他要做这种赔本买卖呢？在后面会给出一个可能的解释。

Grok 3逻辑推理版本（深度思考版本，对标Deepseek R1）

Grok 3的深度思考版本，不说体验，单从评测指标看，达到或者超过了o3 mini，确实是目前效果最好的，或者说最好的之一没有什么问题。

说回上面提到的问题，为啥明知靠推大预训练阶段模型尺寸规模性价比低，Grok 3还要用这种模式呢？很可能内在的原因在于（推断无证据）：Post-Training阶段采取RL Scaling，其效果可能跟基座模型的大小是有正相关关系的，就是说，同样的RL阶段的算力消耗，如果基座模型尺寸更大，则RL 阶段的Scaling效果越好。只有这样，才有在预训练阶段尽量把模型规模推大的必要性。而我们可以假设，Grok 3之所以采取这种过于耗费算力，看着性价比不高的方式，是希望通过加大基座，把深度思考版本的能力明显提起来。

貌似Deepseek R1效果很好又开源，获得一片好评，但大家想要实际用起来，会发现基座太大，部署难度和消耗资源太高，对下游应用不太友好。那为啥Deepseek非得推这种对下游应用来说明显过大的模型呢？（小点的蒸馏模型看着指标很好，但是实际应用效果貌似差不少），是否也是因为基座模型如果不够大，深度思考模型效果就没那么好的原因？

如果上述假设成立，那意味着：三个Scaling Law(Pre-train、RL 、Test Time)，从提高大模型智商的性价比来说，由高到低是：Test Time > RL > Pre-Train，这个是之前的结论。但如果上述假设成立，说明Test Time Scaling的天花板最低，它的天花板依赖于RL阶段的Scaling能力，而RL阶段Scaling天花板次低，它的天花板依赖于预训练阶段Pre-Train的Scaling？如果这样，如果有一天当RL和Test Time天花板到顶，意味着我们可以再启动一轮，去推大基座模型的模型尺寸，RL阶段Scaling 的天花板随之升高，然后可以再去Scale RL和Test Time，就进一步得到智商更高的大模型。如果这成立，那意味着AGI的解决方案已经完整了？其实不需要新的Scaling Law存在就够？

上述推论，是在一个前提成立的条件下的推出来的，这个前提是：Grok 3耗费这么大算力推大模型规模，这是个深思熟虑或小规模实验的结果，而不是仅仅受到之前老观念（预训练阶段算力越高效果越好）影响下的决策。如果这个前提不成立，则上述推论不成立。总之，一切责任在马斯克，Over。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.