网易首页 > 网易号 > 正文 申请入驻

开源大模型的军备竞赛:本地推理的终结,还是新时代的序章?

0
分享至

该图片可能由AI生成

一张参数对比表正在AI社区疯传。GLM-5总参数量约745B,DeepSeek V3.2约685B,Kimi K2接近1T。看到这些数字,本地推理爱好者们集体沉默了。


有人在评论区直接喊出:“本地党的坏消息来了。”

但冷静下来想想,这真的是坏消息吗?

开源模型的真正价值从来不在于每个人都能在自己的电脑上运行它。当你拥有一个700B以上的开源教师模型,蒸馏管道就能源源不断地产出30B到70B的学生模型。一年前最好的开源模型也许只有70B,离前沿闭源模型差得远。现在呢?700B以上的开源模型已经在和最好的闭源模型掰手腕了。

有人做了精确计算:按Q4量化来算,GLM-5大约需要390GB显存。要舒适地运行它,你需要4张H200 NVL,大概13万美元。或者,如果你恰好有16张RTX 3090组成的集群,384GB显存勉强能让Q4量化版本跑起来。

但这里有个更有趣的视角:能在手机上运行的模型,现在已经比GPT-3.5更强了。能在128GB统一内存设备上运行的模型,已经接近GPT-4o和o4-mini的水平。这些本地模型放在一年前就是前沿模型。所以说“本地模型永远追不上大模型”是脱离现实的。前沿模型确实在变得更强,但小模型也在同步进化。对于95%的实际应用场景,一个调教得当的30B模型已经够用了。

内存价格才是真正的瓶颈。如果消费级显卡按正常轨迹发展,我们本该有700到800美元价位的24GB 5070Ti Super,48GB的快速新方案也会在合理价格区间内。但现在整个世界都在喊着“AI需要所有内存”,于是硬件进步停滞了,而我们还在依赖几年前的3090。

有人提到了一个有趣的解决方案:Step 3.5 Flash在128GB设备上表现非常强劲。苹果芯片设备比如Mac Studio有很高的内存带宽,这对token生成至关重要。虽然在提示词处理速度上不算出色,但llama.cpp的提示词缓存可以缓解这个问题。如果预算充足,M3 Ultra 512GB大概是目前能买到的最好的个人大模型设备。当然,如果不急的话可以等几个月后发布的M5 Ultra。

也有人另辟蹊径。DGX Spark用户说他能在128GB内存上舒适地加载140000上下文。还有人提到二手MI210价格在下降,每张有64GB HBM,8张加上适度量化就能跑顶级模型。

最清醒的声音来自一条评论:“开源模型即使不能轻松便宜地在本地运行,对社区依然有价值。你总是可以租用算力来创建数据集或微调模型。关键是它们是开源的。”

本地推理的角色正在转变。我们从原始推理的执行者,逐渐变成微调者和蒸馏者。这也许是更有意思的工作。每次有新的大规模教师模型发布,30B到70B这个区间就会在几周内获得明显提升。知识压缩管道变得越来越成熟了。

关于AGI的讨论也在继续。有人指出,既然有意义的改进只能来自规模增加,说明LLM性能已经遇到瓶颈了,那些说AGI还有六个月就到来的人可以消停了。但也有人反驳:两件事可以同时发生,模型在变大,模型也在变好,按参数量算的效率一直在提升。

30年前32MB内存就已经很多了。也许30年后在本地运行大模型会很便宜,只是我们大多数人太老了,看不到那一天,或者到时候也不在乎了。

有人开了个玩笑:肯定会有人创立一个宗教或邪教,宣称AI的巅峰是在20B参数,他们只会使用那个尺寸的模型,持续几百年。他们可能会被称为LLAmish。

reddit.com/r/LocalLLaMA/comments/1r03wfq/bad_news_for_local_bros

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

谷爱凌虽然拿了亚军,可惊掉下巴的是,拿冠军的居然成功卫冕了

魔都姐姐杂谈
2026-02-10 14:37:35
不可错过!2月11日晚19:00比赛!中央5套CCTV5、CCTV5+直播节目表

不可错过!2月11日晚19:00比赛!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-11 15:16:29
长征十号子级回收时落在了回收网200米外,为何没落到回收网中?

长征十号子级回收时落在了回收网200米外,为何没落到回收网中?

科普大世界
2026-02-11 14:45:51
对阵日本!男篮首发5虎预测:曾凡博被挤掉,高诗岩只能打替补

对阵日本!男篮首发5虎预测:曾凡博被挤掉,高诗岩只能打替补

男足的小球童
2026-02-10 20:17:06
碧桂园杨惠妍被通报批评

碧桂园杨惠妍被通报批评

时间财经
2026-02-11 16:57:30
女子年会中4克黄金,熔炼后竟然变成了白银!公司:花了金子的价格买了金包银

女子年会中4克黄金,熔炼后竟然变成了白银!公司:花了金子的价格买了金包银

观威海
2026-02-10 17:04:57
一年巨亏150亿,彩电大王康佳把自己玩没了?

一年巨亏150亿,彩电大王康佳把自己玩没了?

蓝鲸新闻
2026-02-08 18:45:24
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
网友吐槽:“新开箱的几乎全部腐烂!”价格“腰斩”,口感却崩了,像在开盲盒……

网友吐槽:“新开箱的几乎全部腐烂!”价格“腰斩”,口感却崩了,像在开盲盒……

环球网资讯
2026-02-10 13:17:15
2026春晚第四次联排仅1天,恶心一幕发生了,尼格买提被喊滚下台

2026春晚第四次联排仅1天,恶心一幕发生了,尼格买提被喊滚下台

小徐讲八卦
2026-02-10 07:14:07
想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下

想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下

机器之心Pro
2026-02-10 14:03:01
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

小徐讲八卦
2026-02-11 11:40:12
吴迎秋:“冷思考”是当下中国汽车的“必修课”

吴迎秋:“冷思考”是当下中国汽车的“必修课”

AutoBusiness
2026-02-11 17:36:34
3场直播带货近4亿,李亚鹏突然宣布停播!见好就收,这才大侠!

3场直播带货近4亿,李亚鹏突然宣布停播!见好就收,这才大侠!

唐大业
2026-02-10 17:20:00
央视版《太平年》被举报,三大平台连夜改台词,网友:太离谱了

央视版《太平年》被举报,三大平台连夜改台词,网友:太离谱了

长风文史
2026-02-10 16:01:08
蒙牛冬奥出圈:给“一生要强的中国人”拍了部大片

蒙牛冬奥出圈:给“一生要强的中国人”拍了部大片

智谷趋势
2026-02-10 22:58:10
28岁挪威运动员冬奥会获奖后公开承认出轨,在镜头面前哭泣,还称“想挽回女友”

28岁挪威运动员冬奥会获奖后公开承认出轨,在镜头面前哭泣,还称“想挽回女友”

潇湘晨报
2026-02-11 15:03:45
多名追觅科技员工称公司年终发了1克黄金,上面印有自己的名字 入职一个月新人:非常开心

多名追觅科技员工称公司年终发了1克黄金,上面印有自己的名字 入职一个月新人:非常开心

红星新闻
2026-02-11 09:55:59
生成式科学智能新标杆:IntelliFold 2新近发布并开源,全面领先

生成式科学智能新标杆:IntelliFold 2新近发布并开源,全面领先

机器之心Pro
2026-02-09 10:53:06
李稻葵:“十五五”期间乃至更长时间,汽车仍是中国经济关键产业

李稻葵:“十五五”期间乃至更长时间,汽车仍是中国经济关键产业

汽车预言家
2026-02-11 16:30:11
2026-02-11 19:12:49
普陀动物世界
普陀动物世界
感恩相识 感恩你对我的关注
688文章数 12585关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

百万粉丝网红起诉用6年的助理 对方直播获超百万打赏

头条要闻

百万粉丝网红起诉用6年的助理 对方直播获超百万打赏

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

时尚
家居
本地
房产
健康

冬季穿出高级感,全靠这3个招数简单好懂,中年女人赶紧照搬

家居要闻

简雅闲居 静享时光柔

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版