开源大模型的军备竞赛：本地推理的终结，还是新时代的序章？|内存|正式版模型

开源大模型的军备竞赛：本地推理的终结，还是新时代的序章？

分享至

该图片可能由AI生成

一张参数对比表正在AI社区疯传。GLM-5总参数量约745B，DeepSeek V3.2约685B，Kimi K2接近1T。看到这些数字，本地推理爱好者们集体沉默了。

有人在评论区直接喊出：“本地党的坏消息来了。”

但冷静下来想想，这真的是坏消息吗？

开源模型的真正价值从来不在于每个人都能在自己的电脑上运行它。当你拥有一个700B以上的开源教师模型，蒸馏管道就能源源不断地产出30B到70B的学生模型。一年前最好的开源模型也许只有70B，离前沿闭源模型差得远。现在呢？700B以上的开源模型已经在和最好的闭源模型掰手腕了。

有人做了精确计算：按Q4量化来算，GLM-5大约需要390GB显存。要舒适地运行它，你需要4张H200 NVL，大概13万美元。或者，如果你恰好有16张RTX 3090组成的集群，384GB显存勉强能让Q4量化版本跑起来。

但这里有个更有趣的视角：能在手机上运行的模型，现在已经比GPT-3.5更强了。能在128GB统一内存设备上运行的模型，已经接近GPT-4o和o4-mini的水平。这些本地模型放在一年前就是前沿模型。所以说“本地模型永远追不上大模型”是脱离现实的。前沿模型确实在变得更强，但小模型也在同步进化。对于95%的实际应用场景，一个调教得当的30B模型已经够用了。

内存价格才是真正的瓶颈。如果消费级显卡按正常轨迹发展，我们本该有700到800美元价位的24GB 5070Ti Super，48GB的快速新方案也会在合理价格区间内。但现在整个世界都在喊着“AI需要所有内存”，于是硬件进步停滞了，而我们还在依赖几年前的3090。

有人提到了一个有趣的解决方案：Step 3.5 Flash在128GB设备上表现非常强劲。苹果芯片设备比如Mac Studio有很高的内存带宽，这对token生成至关重要。虽然在提示词处理速度上不算出色，但llama.cpp的提示词缓存可以缓解这个问题。如果预算充足，M3 Ultra 512GB大概是目前能买到的最好的个人大模型设备。当然，如果不急的话可以等几个月后发布的M5 Ultra。

也有人另辟蹊径。DGX Spark用户说他能在128GB内存上舒适地加载140000上下文。还有人提到二手MI210价格在下降，每张有64GB HBM，8张加上适度量化就能跑顶级模型。

最清醒的声音来自一条评论：“开源模型即使不能轻松便宜地在本地运行，对社区依然有价值。你总是可以租用算力来创建数据集或微调模型。关键是它们是开源的。”

本地推理的角色正在转变。我们从原始推理的执行者，逐渐变成微调者和蒸馏者。这也许是更有意思的工作。每次有新的大规模教师模型发布，30B到70B这个区间就会在几周内获得明显提升。知识压缩管道变得越来越成熟了。

关于AGI的讨论也在继续。有人指出，既然有意义的改进只能来自规模增加，说明LLM性能已经遇到瓶颈了，那些说AGI还有六个月就到来的人可以消停了。但也有人反驳：两件事可以同时发生，模型在变大，模型也在变好，按参数量算的效率一直在提升。

30年前32MB内存就已经很多了。也许30年后在本地运行大模型会很便宜，只是我们大多数人太老了，看不到那一天，或者到时候也不在乎了。

有人开了个玩笑：肯定会有人创立一个宗教或邪教，宣称AI的巅峰是在20B参数，他们只会使用那个尺寸的模型，持续几百年。他们可能会被称为LLAmish。

reddit.com/r/LocalLLaMA/comments/1r03wfq/bad_news_for_local_bros

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.