网易首页 > 网易号 > 正文 申请入驻

5090跑不动的新模型:本地AI的硬件天花板到了

0
分享至

周三下午,DeepSeek连发两款V4模型,Zyphra甩出8B小钢炮。我的第一反应是:终于可以测点新东西了。结果算完账,三台机器全鸽了——不是不想测,是硬件根本够不着。

这不是跑分翻车,是连起跑线都没摸到。如果你也在折腾本地推理,这三个模型被拒的理由,比任何排行榜都更能说明问题。


先交代一下家底:RTX 5090(32GB显存)、64GB DDR5内存、PCIe 5.0 SSD。日常跑Qwen 3.5 35B-A3B,agentic coding能稳在200+ tok/s。Devstral、Codestral、Gemma 4、DeepSeek R1 14B都跑过,20B-35B区间算是舒适区。

但新一批模型已经不在这个区间玩了。

DeepSeek V4-Pro:数据中心专属

参数规模:总参数量1.6T,激活参数量256B,FP8权重805GB。

805GB是道铁墙。我整套系统32GB显存加64GB内存,可寻址内存总共96GB。模型体积是总内存的8.4倍。没有GGUF量化版本,也没人做——消费级硬件根本跑不动,做了也是白做。

几周前试过Kimi K2.6,同样是1T规模的MoE模型。能"跑",但速度不到1 token/秒。权重溢出显存挤进内存,撞上DDR5带宽天花板(约80GB/s,而5090显存带宽约1.8TB/s)。V4-Pro 1.6T规模只会更慢。

结论:只能走云API。DeepSeek官方提供api.deepseek.com接口,已将其加入测试机作为云端供应商,与Anthropic并列。

DeepSeek V4-Flash:差一点,差很多

参数规模:总参数量284B,激活参数量13B。

单看激活参数很诱人——13B比我的R1 14B还小。但MoE模型的陷阱在于:所有专家权重必须常驻内存,哪怕每次只调用一小部分。284B总量无处可藏。


算笔账:FP8格式需要142GB,BF16要284GB,INT8也要142GB。我的96GB系统全满也不够。

曾经有个IQ1_S量化版(54GB)和IQ2_M版(87GB),理论上能塞进去。但社区维护者自己删掉了文件。量化作者主动撤包,基本等于明说输出质量没法用。

更深的问题:llama.cpp主线还没支持DeepSeek V4架构。现有GGUF全靠第三方分支,主线PR还在争论中。你要从零编译一个未经验证的分支,去跑一个勉强塞进去的模型。

结论:暂未就绪。V4-Flash先作为云API加入测试列表,等llama.cpp合并支持后再看。

三个模型的共同教训

第一,总参数量正在脱离消费级硬件的引力范围。1T级MoE成为旗舰标配,而"激活参数小"只是营销话术——内存占用看总量。

第二,量化社区正在撤退。当维护者主动删除自己的量化文件,说明硬件压缩的极限已经触及质量底线。IQ1_S、IQ2_M这种极端量化,以前是能跑就行,现在连能跑都不一定行了。

第三,架构支持滞后成为新瓶颈。模型发布速度和推理框架的适配速度脱节,V4架构的PR还在GitHub上扯皮,用户只能干等或者赌分支稳定性。

我的5090不是不够强,是游戏规则变了。本地AI的甜蜜点仍在20B-35B,但前沿模型正在集体跃迁到数据中心尺度。这不是性能差距,是物理层面的不可达。

下一步的本地测试清单:等llama.cpp主线支持V4,等社区重新放出质量过关的量化版,或者等有人做出能跑1T模型的消费级方案——如果真有的话。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被28岁女人睡2次,男子得知其有老公,2017年将她杀害,不想吃亏

被28岁女人睡2次,男子得知其有老公,2017年将她杀害,不想吃亏

汉史趣闻
2026-05-12 11:11:40
马科斯没想到,参议院会出现枪声,杜系重臣被困,麻烦的还在后面

马科斯没想到,参议院会出现枪声,杜系重臣被困,麻烦的还在后面

叹为观止易
2026-05-15 03:30:43
许尔策勒:将和日本队共同决定三笘薰的情况

许尔策勒:将和日本队共同决定三笘薰的情况

懂球帝
2026-05-14 21:40:31
樊振东拒绝回归真相曝光!并非不顾情面,小胖只想安心休整

樊振东拒绝回归真相曝光!并非不顾情面,小胖只想安心休整

林子说事
2026-05-15 00:00:32
两任国防部长判死缓,今天不得不提这个人了。

两任国防部长判死缓,今天不得不提这个人了。

华人星光
2026-05-08 11:04:21
特朗普首份见面礼,中国照单全收,人民日报点醒中美新心态

特朗普首份见面礼,中国照单全收,人民日报点醒中美新心态

三石记
2026-05-15 08:45:25
地表最强175!小托马斯正式回归绿军!

地表最强175!小托马斯正式回归绿军!

篮球大图
2026-05-15 09:08:12
转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

今朝牛马
2026-05-06 21:00:56
若中日爆发战争,100多万在日华人很有可能被扣留?

若中日爆发战争,100多万在日华人很有可能被扣留?

金哥说新能源车
2026-05-15 08:57:28
诺兰《奥德赛》选角不是问题,但马特·达蒙这句台词让我皱眉头

诺兰《奥德赛》选角不是问题,但马特·达蒙这句台词让我皱眉头

晚星归航2
2026-05-15 03:38:40
其实,男人遇见深爱的女人,往往不是变大方,而是会下意识有这两个反常

其实,男人遇见深爱的女人,往往不是变大方,而是会下意识有这两个反常

心理观察局
2026-05-15 09:45:41
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
中国股市:但凡第二天的涨停股,都逃不过这个规律,无一例外

中国股市:但凡第二天的涨停股,都逃不过这个规律,无一例外

股经纵横谈
2026-04-01 19:03:17
广东回莞暂时解散:徐杰找奎因签名,王少杰好难过,焦泊乔说拜拜

广东回莞暂时解散:徐杰找奎因签名,王少杰好难过,焦泊乔说拜拜

二哥聊球
2026-05-14 11:08:11
在日本工作的华人感慨:不要信媒体吹牛,日本相当于我国二线城市

在日本工作的华人感慨:不要信媒体吹牛,日本相当于我国二线城市

一口娱乐
2026-05-15 01:35:53
西甲乱套了!瓦伦西亚1-1后有望保级,榜尾7队差3分,2弱旅或降级

西甲乱套了!瓦伦西亚1-1后有望保级,榜尾7队差3分,2弱旅或降级

体育知多少
2026-05-15 09:24:57
日韩股市,集体跳水

日韩股市,集体跳水

第一财经资讯
2026-05-15 10:12:22
现在这个时间点,不要花钱去日本旅游,可能会害了自家人

现在这个时间点,不要花钱去日本旅游,可能会害了自家人

青梅侃史啊
2026-05-15 09:44:25
“1,3,?,4”,一组诡异的标尺数字,让这本顶刊6年来首次撤稿

“1,3,?,4”,一组诡异的标尺数字,让这本顶刊6年来首次撤稿

返朴
2026-05-14 08:10:35
太提气了!走出人民大会堂的那一刻,他们的手势说明一切

太提气了!走出人民大会堂的那一刻,他们的手势说明一切

今日搞笑分享
2026-05-14 19:31:47
2026-05-15 11:00:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
2766文章数 26关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

媒体:特朗普访华举世瞩目 又一次使用“最高级用语”

头条要闻

媒体:特朗普访华举世瞩目 又一次使用“最高级用语”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

时尚
亲子
教育
手机
公开课

看《给阿嬷的情书》,带纸巾,别带懂王

亲子要闻

我和7个月女娃的晚间规律【周六野Zoey】

教育要闻

美国商务签 真的假不了假的真不了 看看什么叫真正的商务人士办的商务签

手机要闻

对标大疆Pocket!OPPO、vivo年底齐推云台相机

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版