该图片可能由AI生成![]()
一张参数对比表正在AI社区疯传。GLM-5总参数量约745B,DeepSeek V3.2约685B,Kimi K2接近1T。看到这些数字,本地推理爱好者们集体沉默了。
![]()
有人在评论区直接喊出:“本地党的坏消息来了。”
但冷静下来想想,这真的是坏消息吗?
开源模型的真正价值从来不在于每个人都能在自己的电脑上运行它。当你拥有一个700B以上的开源教师模型,蒸馏管道就能源源不断地产出30B到70B的学生模型。一年前最好的开源模型也许只有70B,离前沿闭源模型差得远。现在呢?700B以上的开源模型已经在和最好的闭源模型掰手腕了。
有人做了精确计算:按Q4量化来算,GLM-5大约需要390GB显存。要舒适地运行它,你需要4张H200 NVL,大概13万美元。或者,如果你恰好有16张RTX 3090组成的集群,384GB显存勉强能让Q4量化版本跑起来。
但这里有个更有趣的视角:能在手机上运行的模型,现在已经比GPT-3.5更强了。能在128GB统一内存设备上运行的模型,已经接近GPT-4o和o4-mini的水平。这些本地模型放在一年前就是前沿模型。所以说“本地模型永远追不上大模型”是脱离现实的。前沿模型确实在变得更强,但小模型也在同步进化。对于95%的实际应用场景,一个调教得当的30B模型已经够用了。
内存价格才是真正的瓶颈。如果消费级显卡按正常轨迹发展,我们本该有700到800美元价位的24GB 5070Ti Super,48GB的快速新方案也会在合理价格区间内。但现在整个世界都在喊着“AI需要所有内存”,于是硬件进步停滞了,而我们还在依赖几年前的3090。
有人提到了一个有趣的解决方案:Step 3.5 Flash在128GB设备上表现非常强劲。苹果芯片设备比如Mac Studio有很高的内存带宽,这对token生成至关重要。虽然在提示词处理速度上不算出色,但llama.cpp的提示词缓存可以缓解这个问题。如果预算充足,M3 Ultra 512GB大概是目前能买到的最好的个人大模型设备。当然,如果不急的话可以等几个月后发布的M5 Ultra。
也有人另辟蹊径。DGX Spark用户说他能在128GB内存上舒适地加载140000上下文。还有人提到二手MI210价格在下降,每张有64GB HBM,8张加上适度量化就能跑顶级模型。
最清醒的声音来自一条评论:“开源模型即使不能轻松便宜地在本地运行,对社区依然有价值。你总是可以租用算力来创建数据集或微调模型。关键是它们是开源的。”
本地推理的角色正在转变。我们从原始推理的执行者,逐渐变成微调者和蒸馏者。这也许是更有意思的工作。每次有新的大规模教师模型发布,30B到70B这个区间就会在几周内获得明显提升。知识压缩管道变得越来越成熟了。
关于AGI的讨论也在继续。有人指出,既然有意义的改进只能来自规模增加,说明LLM性能已经遇到瓶颈了,那些说AGI还有六个月就到来的人可以消停了。但也有人反驳:两件事可以同时发生,模型在变大,模型也在变好,按参数量算的效率一直在提升。
30年前32MB内存就已经很多了。也许30年后在本地运行大模型会很便宜,只是我们大多数人太老了,看不到那一天,或者到时候也不在乎了。
有人开了个玩笑:肯定会有人创立一个宗教或邪教,宣称AI的巅峰是在20B参数,他们只会使用那个尺寸的模型,持续几百年。他们可能会被称为LLAmish。
reddit.com/r/LocalLLaMA/comments/1r03wfq/bad_news_for_local_bros
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.