网易首页 > 网易号 > 正文 申请入驻

DeepSeek塞进苹果本儿,分币不花实现“龙虾自由”

0
分享至



在agent时代最贵的是什么?是token。

一些重度agent使用者,一个月用掉几亿token,账单小几万块钱也是常有的事。

然而现在开始,有这么一个开发者他开源了一个本地方案,一台苹果笔记本就能部署,也就是说,你从此实现了“龙虾自由”,跑再多任务,也不会再为token付出一分钱了。最关键的是,他用的还是DeeSeek V4 Falsh。

几天前,antirez在GitHub上发布了一个项目,叫ds4。

这是一个专门为DeepSeek V4 Flash写的推理引擎。一共几千行C代码,可以让DeepSeek V4 Flash这个模型在128G内存的苹果电脑上跑起来。

开发者antirez,本名Salvatore Sanfilippo,是意大利程序员,同时他也是开源数据库Redis的原作者。Redis后来成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去想,DeepSeek影响力足够大,吸引到了圈内顶流的程序员,但是坏的方面是,DeepSeek这回真的免费了。

任何开发者都可以用ds4,去把DeepSeek V4 Flash装进自己的MacBook Pro里,本地跑代码、本地读上下文、本地做agent任务,而这一切的一切,不需要给DeepSeek付1分钱。

虽然DeepSeek V4 Flash本身开源,可FP16精度的原始模型要吃掉284G内存,显存需求更是高达160G。

因此,想运行它,你至少得有两张英伟达A100 80GB、一条512GB DDR5 ECC内存,以及一个4TB NVMe SSD。总成本50万人民币。

而现在,一台3万块钱的MacBook Pro就能跑。

那antirez为什么偏偏选中DeepSeek V4 Flash呢?

原因是DeepSeek最适合被“塞进本地电脑”。

它有284B总参数,足够大;但每次推理只激活13B参数,又不像传统大模型那样沉重。

它支持100万token上下文,适合编程助手这种长任务;同时KV cache压缩得足够狠,给本地内存和SSD留下了操作空间。

DeepSeek V4 Flash刚好站在了这样一个神奇的平衡点上,既大到值得折腾,又小到能被塞进苹果笔记本里。



YC的CEO Garry Tan在X上转了这条消息,只打了一行字:正在下载……100万token上下文窗口,可用的编程助手能力,全在一台128GB的MacBook Pro上,太疯狂了。

01

ds4究竟是什么?

先说结论,ds4不是一个模型,它是一台“专用发动机”。DeepSeek V4 Flash是车,苹果电脑是路,ds4负责把这辆原本更适合跑在云端的大车,改到本地机器上能跑、能接API、还能被coding agent调用。



过去大家想在自己电脑上跑大模型,普遍用的都是llama.cpp这个工具。它的好处是什么模型都能跑,Llama、Qwen、DeepSeek全都支持。

可问题就是,什么都能跑,就意味着什么都跑不到最快。为了照顾所有模型,llama.cpp必须做很多妥协,性能上不可能做到极致。

antirez的想法正好相反,他才不管别的模型死活,他就专门伺候DeepSeek V4 Flash这一个,把它优化到极限。

他一共做了3件事。

第一件事,是不对称的2-bit量化。

DeepSeek V4 Flash的架构是MoE(Mixture of Experts),284B总参数里,每次推理只激活13B,这13B是路由挑出来的若干个专家子网络。

就像一个工具箱里有284把工具,每次只拿出13把来用。这284B里面,有一大堆“备选专家”占了90%以上的空间,但它们不是每次都用,只是候补。

antirez的做法是,只对这批routed experts做激进的2-bit量化,up和gate矩阵用IQ2_XXS,down矩阵用Q2_K,而模型里所有关键路径上的组件,包括shared experts、projections、routing网络,全部保持原始精度不动。

也就是说,antirez把这些“候补专家”狠狠压缩,压到只剩原来1/4的大小,但那些每次都要用的核心组件,一点都不动,保持原样。

这是一种不对称的压缩策略,砍掉体积大头,保住质量命脉。

第二件事,是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100万token的上下文,这相当于你可以把一整本小说扔给它,它能全记住。

但这么长的上下文,意味着AI在工作时要不停地回头翻看前面的内容。为了让这个“回头翻看”的动作不至于慢到卡死,AI需要把这些内容暂存在一个叫“缓存”的地方,方便随时调用。

以前的做法是把这个缓存放在内存里。内存速度快,AI每次生成一个字都要频繁查这个缓存,所以必须放内存。

但问题是,如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash,光缓存就能把内存吃光,模型本身都没地方放了。

所以antirez的做法是直接把缓存扔到硬盘(SSD)上。ds4把一部分KV状态做成可落盘、可恢复的缓存,让长提示词和agent反复续写时,不必每次从头处理。

这听起来有点离谱,因为硬盘比内存慢多了。

然而现代Mac SSD足够快,适合做KV缓存持久化和恢复。加上DeepSeek V4 Flash本身对缓存做过压缩,读写量不大,所以硬盘完全顶得住。

结果就是内存省出来了,100万token的超长对话真的在一台MacBook上跑起来了。

不过这不等于128GB MacBook可以毫无压力地把100万token全部拉满。

按照ds4自己的说明,2-bit模型本身已经要占掉大约80GB级别的内存,真正日常使用时,100k到300k上下文会更现实一点。

第三件事,是纯Metal原生路径。

antirez把所有优化都押在苹果电脑的GPU上。

因此他专门为苹果芯片写了一套代码,让DeepSeek V4 Flash能在苹果电脑上跑得飞快。

至于CPU,并不是这个项目的重点。README里也写得很直白,CPU模式目前还不稳定,甚至可能触发系统崩溃。antirez进一步表示,如果有人真想走这条路,后续大概还得靠社区来补救。

在M3 Max 128GB的MacBook Pro上,实测速度是每秒能生成26个字左右。M3 Ultra 512GB的Mac Studio上能跑到每秒36个字。

不算快,但写代码、调试这些日常工作完全够用。

更有意思的是,antirez是独自一人通过GPT-5.5完成的整个这个项目。

02

利好DeepSeek

根据外媒报道,DeepSeek目前正在寻求高达73.5亿美元的融资,梁文锋现在就处在这个关键的转折点上,用商业叙事取代DeepSeek过往的技术叙事。

那投资人看什么?不只是看模型跑分,不只是看API调用量,更看生态位和不可替代性。

一个海外知名开发大佬,愿意为你的模型写专用引擎,这本身就说明DeepSeek在海外有着一定的生态地位。

过去一年,中国开源模型的出海叙事里,主流衡量标准是benchmark,MMLU、HumanEval、SWE-bench,一串又一串的数字。

但有人愿意围绕你做二次工程,才代表你的模型被认可了。Anthropic用千问做实验,Cursor蒸馏Kimi,这种认可比分数更值钱。

antirez不是AI圈里那种什么新模型都要试一遍的博主

他选一个模型,然后还要花几周的时间去写专用推理引擎、做特制量化、搭HTTP服务层、做agent集成测试,显然是他认为DeepSeek值得。

这就变相等于,一个有信誉的第三方,在用自己的时间和名声给DeepSeek-V4背书。

说到国产模型出海,目前我能想到的路有两条。

一条是API被调用。你提供服务,别人付费使用,你是service provider,客户是consumer。

这条路很直接,也很现实,别人可以随时切换,你无时无刻都得对抗你的竞品,从性能到价格。

另一条是模型被改造。有人把你的权重拿走,做量化、做蒸馏、做专用runtime、做本地部署、做agent工具链。在这条路里,你的模型成了材料。

材料和服务的区别在于,材料会被嵌入到别人的工具链里,然后就很难被换掉了。

举个例子,某个开发者把ds4集成到自己的coding agent里,写了一堆配置文件、调试脚本、自动化流程。他的团队成员也都习惯了这套工具,公司的代码库里到处都是基于DeepSeek本地推理的调用。

这时候如果要换成别的模型,就不是“改个API key”那么简单了,而是要重新适配引擎、重写脚本、重新培训团队习惯。成本太高,大概率就不换了。

这就是“被嵌入”的性。

ds4把DeepSeek V4 Flash嵌进了Metal原生本地推理这个场景。截至发稿,Hugging Face上antirez那个deepseek-v4-gguf仓库,就已经有25000次下载了。



每一次下载,都意味着有人在自己的机器上跑起了DeepSeek,粘性也就这么一点一点的建立起来了。

更值得注意的是连锁效应。

Hacker News上有这样一条高赞评论,他说如果以后针对精确的GPU加模型组合构建超优化推理引擎会怎样?GPU越来越贵,抽象层去掉得越多,优化空间就越大。

这个方向一旦被验证,意味着每一代有分量的开源模型发布时,都会有人跳出来给它做专属引擎、专属量化、专属agent接入。

相当于是每一代模型都应该有一个自己的“antirez”,开发出一个自己的“ds4”。

DeepSeek V4 Flash正好踩在了这个起点上。

如果这套逻辑成立,那么后续每个V4 Flash的小版本迭代,都会天然地被嵌入到这个“一代模型配一个专用引擎”的循环里。

梁文锋成了第一个吃螃蟹的人。

DeepSeek也从一个模型品牌,变成海外开发者手里的基础设施材料。

对于现阶段的DeepSeek来说,这种“升维”非常重要。

03

焉知非福

讲完了利好,必须讲另一面。

目前来看,DeepSeek的核心商业化路径是API。开发者调用,按token付费,薄利多销。

这是DeepSeek最擅长的打法。

但ds4这种项目,本质上是在“劝退”一部分API用户。

你可以这么来理解,一个独立开发者或者小团队,过去用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token消耗场景,长上下文、多轮对话、频繁工具调用、反复重试。

按token计费的话,一个重度agent的开发者每个月可能要花几千块钱的token费用。

然而现在他面前出现了另一个选项。

花几万块钱买一台128GB的MacBook Pro,然后跑ds4。

前期投入一次,之后推理没有边际成本,数据不出本地,延迟完全可控。

外网论坛上有个开发者分享了他的方法:日常写代码、改bug这些简单任务,全扔给本地的ds4跑,不花钱。只有遇到复杂的架构设计问题,才切换到云端的DeepSeek V4-Pro或者Claude Opus。

高token消耗的部分被本地化了,只有少量高价值调用还留在云端。

相当于一分钱没有给到DeepSeek,却在绝大多数时间都在使用DeepSeek。

同时,antirez采用的量化方法也是有“坑”的。

即使是不对称量化策略,只压MoE专家不压关键路径,也不可能完全没有质量损失。

外网论坛上已经有人发出了测试结果,ds4本地量化版本在超2000行代码的文件里偶尔丢失变量作用域,幻觉略多,MoE路由层对量化噪声尤其敏感。

这就引出了另一个更麻烦的问题,叫做体验解释权。

就像DeepSeek服务器崩了,我不知道是为什么崩的,我只会觉得是DeepSeek不行。

用户调用DeepSeek官方API,如果效果不好,他大概率会认为是DeepSeek自己的问题。但用户在本地跑ds4时,面对的是2-bit量化、Metal runtime、SSD KV cache、上下文截断、agent配置等一整套变量。

这里面任何一个环节出问题,最后往往被归因到“DeepSeek不行”。

别人帮你扩散模型,但他并不会帮你去维护口碑,主要是人家也没这义务。

更深一层看,“成为材料”和“成为平台”是完全不同的两件事,梁文锋更想要的是后者,可是ds4却让DeepSeek成为了前者。

材料只会被嵌入别人的工具链,不能为DeepSeek提供商业闭环,只有平台才掌握分发、计费、账户、数据、开发者关系和升级节奏。

DeepSeek如果只是提供权重,被antirez、Cursor、各种本地agent和第三方runtime拿去改造,它当然获得了名声。不过真正能留住用户的人,可能是那些工具链的开发者。

这就是开源模型的悖论。

模型越成功,越容易成为别人的底层能力;但底层能力如果没有抓住开发者的入口,就有可能被上层产品吃掉大部分商业价值。

所以ds4对DeepSeek不是简单的好消息,也不是坏消息。

可以肯定的是,对于DeepSeek来说,他们又有故事可以讲给投资人听了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
何穗庆祝首个母亲节,儿子win肉嘟嘟出镜好白,姥姥的爱也很给力

何穗庆祝首个母亲节,儿子win肉嘟嘟出镜好白,姥姥的爱也很给力

丹妮观
2026-05-10 17:34:50
广东一男子加满640元汽油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

广东一男子加满640元汽油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

大象新闻
2026-05-10 13:46:09
排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

排面直接拉满!小霖霖10岁生日全员奔赴湾湾,马筱梅格局彻底圈粉

喜欢历史的阿繁
2026-05-10 12:56:08
邮报:老佛爷一直想请回穆帅,此次内讧让他看到了可乘之机

邮报:老佛爷一直想请回穆帅,此次内讧让他看到了可乘之机

懂球帝
2026-05-10 14:37:03
5比3力克韩国队,射箭世界杯赛上海站,中国队夺反曲弓混合团体金牌!

5比3力克韩国队,射箭世界杯赛上海站,中国队夺反曲弓混合团体金牌!

上观新闻
2026-05-10 14:56:03
电动自行车头盔放哪儿防丢?北京交警解锁新方法!

电动自行车头盔放哪儿防丢?北京交警解锁新方法!

家住朝阳
2026-05-09 18:05:17
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
文班亚马依旧强势 马刺再胜森林狼夺赛点

文班亚马依旧强势 马刺再胜森林狼夺赛点

舞指如飞
2026-05-10 19:00:43
房子“以旧换新潮”终究还是来了?中央定调,这4类房子无需加钱

房子“以旧换新潮”终究还是来了?中央定调,这4类房子无需加钱

混沌录
2026-05-09 21:23:14
手机突然收到陌生验证码千万别慌!内行忠告:立刻打开飞行模式

手机突然收到陌生验证码千万别慌!内行忠告:立刻打开飞行模式

Thurman在昆明
2026-05-09 05:11:35
“人们不再想要战争”:黎巴嫩对以色列态度转变,民众反战情绪上升,和平诉求增强

“人们不再想要战争”:黎巴嫩对以色列态度转变,民众反战情绪上升,和平诉求增强

起喜电影
2026-05-10 17:28:05
未来可期!季后赛8位证明自己的年轻人:马刺三少上榜,雷霆捡宝

未来可期!季后赛8位证明自己的年轻人:马刺三少上榜,雷霆捡宝

你的篮球频道
2026-05-10 14:42:56
广东黄丹云医生去世,新婚患舌癌近2年,留下1岁多儿子太可怜了!

广东黄丹云医生去世,新婚患舌癌近2年,留下1岁多儿子太可怜了!

烈史
2026-05-10 11:50:18
内幕,名记透露马德鲁加离队真因,被贵宾点名,以为他是少数民族

内幕,名记透露马德鲁加离队真因,被贵宾点名,以为他是少数民族

体坛风之子
2026-05-10 07:03:51
80岁不管存款多少,记得提前给自己准备4样东西,建议了解

80岁不管存款多少,记得提前给自己准备4样东西,建议了解

小谈食刻美食
2026-04-27 07:57:04
李小冉北京豪宅太绝了!稀缺独栋复古洋房,估值8亿满是岁月质感

李小冉北京豪宅太绝了!稀缺独栋复古洋房,估值8亿满是岁月质感

观鱼听雨
2026-05-07 23:17:09
黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

芹姐说生活
2026-05-09 21:08:03
穆帅再辟谣:收官前不会接触皇马,回归要求戏杜撰

穆帅再辟谣:收官前不会接触皇马,回归要求戏杜撰

体坛周报
2026-05-10 18:14:50
我发现,被领导提拔的女护士都有一个共性

我发现,被领导提拔的女护士都有一个共性

护理传真
2026-05-09 18:08:49
2026-05-10 19:52:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2449文章数 8063关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
家居
旅游
时尚
健康

教育要闻

被三桶油看上的6所大学,不是211,不是双一流,毕业就业超级好!

家居要闻

菁英人居 全能豪宅

旅游要闻

周末不用走远!家门口5个低龄友好公园,让您轻松遛娃一整天

今年最好看的衬衫竟然是它?太减龄了!

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版