哈喽大家好,今天老张带大家聊聊AI圈这两年的发展简直像坐过山车,2022年底ChatGPT横空出世后,Scaling Law直接成了行业“制胜法宝”。
不管是ChatGPT、DeepSeek,还是2025年11-12月已陆续发布的Gemini 3、GPT-5.2,全把这一法则当底层逻辑,开启了疯狂“堆料大赛”——GPU数量、参数规模、训练数据量卷到飞起,仿佛堆得越多,智能就越强。
![]()
![]()
行业集体焦虑
可现在画风突变,全行业集体陷入焦虑!算力还在指数级暴涨,数据投喂也没断供,但AI的智能跃迁却慢得像蜗牛,“数据枯竭”“算力越堆回报越少”成了绕不开的痛点。
更绝的是,行业大佬们直接吵翻了天:Ilya Sutskever直言单纯堆预训练算力的时代已进入平台期,Yann LeCun吐槽再扩规模也摸不到真正的AGI,就连Sam Altman都含蓄承认,多搞GPU换不来同等幅度的智能跃升。
![]()
其实早几年AI能一路开挂,核心逻辑特简单——把电力通过计算变成可复用的智能,这想法和“现代强化学习之父”Richard S. Sutton不谋而合,全靠三大“黄金组合”撑场。
首先是预训练“挑大梁”,微调、强化学习这些顶多算辅助,不是它们没用,是预训练砸的算力、耗的能源,根本不在一个量级。
![]()
其次是Next-Token Prediction太能打,这损失函数几乎不用人为干预,直接给AI喂了近乎无限的训练数据。
最后是Transformer架构找对了路,它压根不像人脑,反倒像GPU的“亲兄弟”——高度并行、计算密集、通信可控,本质就是台裹着神经网络外壳的并行计算机。
![]()
就这 trio 组合发力,AI从2018年发布的GPT-1、BERT一路冲到ChatGPT、Gemini,十余年间稳步升级,也让行业养成了“堆料就赢”的思维定式。
可现在这套逻辑失灵,说白了就是大家犯了个低级误区:把“效率提升”和“智能上限”搞混了!
![]()
![]()
成功逻辑失效
现在的问题,就是模型、损失函数、优化算法这些“消化器官”掉链子了,算力堆得再多也吃不下,全浪费在无效参数更新上,智能自然不涨。
微软2024年报告显示,千亿参数后每10%算力投入仅带来1.8%性能提升,指数级资源消耗与线性效果增长形成严重失衡,印证了这一痛点。
![]()
我真觉得,这就是行业早期“走捷径”的必然结果。Scaling Law带来的“堆料就涨智能”太香,让企业们扎堆卷规模,却忽略了底层技术的可持续性,现在算力堆砌触达临界点,瓶颈自然就来了。
![]()
不过大家也别慌,破局的核心思路已经很明确:从“抢算力”变成“用算力”,从“疯狂堆料”转向“智能精算”。
未来不是要“省算力”,而是让AI在单位时间内高效“消化”更多能源,真正转化成智能突破,这四个方向得重点盯:
![]()
![]()
破局之路
首先是深挖更高数值精度。现在从FP16升到FP32再到FP64,智能没咋涨,但这不是方向错了,是探索不够深入。
传统科学计算里,高精度早就证明能提升结果可靠性,AI领域得结合算法优化和硬件适配,这事儿得靠巨头牵头,毕竟研发成本高、周期长,初创企业扛不住;其次是高阶优化器迭代,现在主流的一阶梯度方法太死板,高阶优化器理论上能少走无效迭代,但全面替代还得等,不仅要算法突破,还得解决计算复杂度的问题,是场“长期战”。
![]()
再者是重构架构和损失函数,别光想着吞吐效率,得盯着“极限算力下能不能训出更强模型”,说不定得跨学科融合,跳出现在的思维框架。
最后是精细化训练搜索,别傻乎乎多跑几轮训练,得动态调轮次、优化超参数、匹配数据和参数,把每一分算力都用在刀刃上,这需要企业沉下心做底层研究,别再浮躁跟风。
![]()
讲真的,AI行业这波瓶颈不是终点,而是从“野蛮生长”到“高质量发展”的必经之路。效率提升和突破智能上限不是对着干的,短期靠效率落地赚钱,长期得靠上限拉开差距。人工智能七十年的发展早证明,靠计算能力的通用方法具备压倒性优势。等企业们不再执着于堆料,转而聚焦算力转化效率,AI的下一次跃迁肯定不远了——而那些先完成“智能精算”转型的玩家,迟早是下一波领跑者!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.