网易首页 > 网易号 > 正文 申请入驻

Redis之父助力DeepSeek-V4:Mac上高效推理,单日飙升1.4k Star!

0
分享至

智猩猩AI整理

编辑:没方、宁宁

前几天,一个叫 DeepSeek-TUI 《狂揽11.6k Star!DeepSeek版Claude Code登顶热榜,作者是个美国人》的开源项目突然冲上 GitHub 热榜,它由美国独立开发者 Hunter Bown 打造,该项目把 DeepSeek-V4 接进终端,让开发者可以像使用 Claude Code 一样,在命令行里让 AI 读代码、改文件、跑 Shell、管理 Git,甚至调度子 Agent 协同完成任务。

这件事之所以能爆火,本质上说明了一个变化:DeepSeek-V4 不再只是一个聊天模型,而正在被开发者用来重构本地 AI 编程工作流。

如果说 DeepSeek-TUI 解决的是“怎么让 DeepSeek 像 Claude Code 一样帮你写代码”。

那么今天要给大家介绍的开源项目 ds4.c 解决的就是更底层的问题——怎么让 DeepSeek-V4-Flash 在本地高内存 Mac 设备上稳定地跑起来,成为一个可用的本地推理服务。

而这一次出手的不是普通开发者,而是大名鼎鼎的Redis之父Salvatore Sanfilippo(antirez)。不到一天,该项目在github已收获1.4k stars。



  • X(Twitter)链接:

    https://x.com/antirez/status/2052405820235678175



  • 项目链接:

    https://github.com/antirez/ds4

简单理解,ds4.c 就是一个专门为 DeepSeek V4 Flash 打造的本地推理引擎。

为什么要为一个模型单独造推理引擎?因为大模型开源之后,真正困难的并不只是下载权重,而是如何在本地硬件上以可接受的内存占用、速度和接口形态跑起来。尤其是 DeepSeek V4 Flash 这样的 MoE 模型,虽然是 Flash 版本,但依然拥有 284B 总参数、13B 激活参数,并支持最高 1M token 上下文。

这意味着它对硬件要求极高,普通电脑难以驾驭,真正跑起来会面临内存占用巨大、长上下文 KV Cache 爆炸、推理速度、Agent 接口适配等一系列工程挑战。

ds4.c 不是一个通用的 GGUF Runner,也不是想兼容所有模型的框架。它非常克制,只专注一件事:把 DeepSeek V4 Flash 在 MacBook Pro M3 Max(128GB)和 Mac Studio M3 Ultra(512 GB) 等高端个人设备上,尽可能跑得更稳、更适合接入本地 Agent。

01

项目介绍

ds4.c 的核心理念非常 antirez 式——少即是多,专精胜于泛用

它从模型加载、Prompt 渲染、Metal 图执行,到 KV 状态管理和 Server API,整条链路都围绕 V4 Flash 做了定制。

(1)面向 Apple Silicon 的 Metal 推理路径

ds4.c 的实际优化路径是 Apple Metal。虽然 CLI 中存在 CPU reference/debug path,但项目明确说明 Server 是 Metal-only,真正面向使用的路径是 Metal graph executor,因此它更适合高内存 MacBook Pro、Mac Studio 等 Apple Silicon 设备。

(2)更聪明的量化策略

DeepSeek V4 Flash 是 284B 总参数、13B 激活参数的 MoE 模型;而从 ds4.c 的角度看,本地运行它的最大难点就是内存占用。

ds4.c 提供 q2 / q4 两类 GGUF 权重选择。其中 q2 并不是简单粗暴地全模型压到 2-bit,而是采用非对称量化策略:主要量化 routed MoE experts,尽量保留 shared experts、projection、routing 等关键结构,从而在内存占用和模型质量之间取得平衡。

(3)针对长上下文的 KV Cache 复用

DeepSeek V4 Flash 支持 1M token 上下文,但长上下文真正消耗资源的是 KV Cache。ds4-server 会比较客户端反复发送的 token 前缀,并复用已有的 KV checkpoint,避免每次都从 token zero 重新 prefill。对于不同会话切换或服务重启后的长上下文复用,项目还提供磁盘 KV Cache,让长文档分析、代码库理解和 Agent 长任务更适合在本地持续运行。

第一次请求用户长 Prompt → Tokenize → Prefill → 生成 KV Checkpoint → 写入内存 / 磁盘
第二次请求新 Prompt → 匹配已有 token 前缀 → 命中 KV Cache → 跳过重复 Prefill → 继续生成

(4)兼顾 CLI 和 Server 两种使用方式

ds4.c 既可以在终端中直接交互,也可以启动本地 Server,对接更复杂的 Agent 工作流。CLI 适合开发者快速测试模型、进行多轮对话或读取本地文件;Server 则更适合接入代码助手、Agent 客户端和自动化工具链。

在服务形态上,ds4-server 提供 OpenAI 风格的 /v1/chat/completions/v1/completions,以及 Anthropic 风格的 /v1/messages 端点,可用于接入 opencode、Pi、Claude Code 等本地 Agent 客户端。不过它当前仍是 alpha 质量代码,Server 是 Metal-only,推理通过单个 Metal worker 串行执行,并不是面向高并发生产部署的通用推理框架。

ds4.c 的价值不在于“通用”,而在于“专用”。它展示了一种新的本地推理思路:围绕一个关键模型、一类关键硬件,把推理链路做得更短、更直接,让 DeepSeek V4 Flash 真正在本地进入可运行、可接入、可持续使用的状态。

02

使用方法

官方建议,128GB RAM 机器选择 q2 模型,256GB 及以上机器可以选择 q4 模型。

最基础的安装流程很简单。

先克隆项目,然后下载模型,最后编译:


git clone https://github.com/antirez/ds4.gitcd ds4
./download_model.sh q2 # 128GB RAM 机器推荐# 或者./download_model.sh q4 # 256GB 及以上 RAM 机器推荐
make

下载脚本会自动拉取对应的 GGUF 权重,并设置本地模型链接;由于模型文件较大,脚本也支持断点续传。

如果只是想快速测试,可以直接用 CLI 一次性提问:


./ds4 -p "Explain Redis streams in one paragraph."

如果不加 -p,则会进入交互式对话模式:

   

./ds4


进入后会看到类似下面的提示符:

   

ds 4>

交互模式中可以切换 thinking mode、调整上下文窗口、读取本地文件,也可以随时退出。

如果要把它当成本地 API 服务使用,可以启动 ds4-server:


./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

然后用 OpenAI 风格接口调用:

curl http://127.0.0.1:8000/v1/chat/completions \  -H 'Content-Type: application/json' \  -d '{    "model": "deepseek-v4-flash",    "messages": [      {        "role": "user",        "content": "List three Redis design principles."      }    ],    "stream": true  }'

对于 Agent 场景,官方 README 建议启动 server 时根据机器内存合理设置 --ctx。虽然模型本身支持 1M token 上下文,但 README 提醒,在 128GB RAM 机器上,q2 量化模型本身已经占用约 81GB,如果再配置完整 1M 上下文,额外 KV 相关内存压力会很大,因此更现实的选择是把上下文窗口设置在 100K 到 300K token 区间。

这也是 ds4.c 的现实定位——它不是让普通笔记本“无痛跑满百万上下文”,而是把一个超大 MoE 模型压到高端个人设备可实验、可接入 Agent、可复用缓存的程度。

03

大模型竞争,正在从“谁更大”

走向“谁更能落地”

过去一年,大模型竞争的焦点大多集中在参数规模、推理能力、榜单分数和 API 价格上。谁的模型更大、上下文更长、谁在数学、代码、Agent 任务上得分更高,往往就能成为行业热点。

但随着模型能力逐渐逼近真实应用场景,一个更底层的问题开始凸显:模型本身强不强是一回事,能不能被高效、稳定、低成本地部署到真实机器、真实工作流和真实开发者手里,是另一回事。

尤其在 Agent 时代,这个问题会被进一步放大。

未来的智能体不再是简单问答,而是要长期阅读代码仓库、处理复杂文档、调用外部工具、管理任务状态,并在多轮交互中持续保留上下文。

这要求底层模型不仅要擅长推理,还必须能承受长上下文、频繁请求、工具调用、缓存复用以及本地化部署带来的严苛工程压力。

从这个角度看,DeepSeek-V4-Flash 提供了一个极具潜力的高效 MoE 模型样本,而 ds4.c 则把这个样本真正推进到真实应用场景:本地推理、Apple Metal 加速、Agent 接口适配、长上下文 KV Cache 复用,以及 OpenAI / Anthropic 风格的 API 兼容。

当开发者能够在自己的机器上轻松部署足够强大的推理模型,再叠加上成熟好用的智能体框架,AI Agent 才会真正从“云端演示”走向“本地可控”,从“单次任务助手”走向“长期工作伙伴”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
果然不出所料!特朗普访华生变,中方要求遭美方拒绝

果然不出所料!特朗普访华生变,中方要求遭美方拒绝

阿天爱旅行
2026-05-09 17:51:03
砍39分+8记三分!联盟又一超级外援诞生,杜锋终于盼来季后赛救星

砍39分+8记三分!联盟又一超级外援诞生,杜锋终于盼来季后赛救星

老叶评球
2026-05-09 23:33:42
第一名生肖鸡,2026年立夏过后,5件大囍事来临门!

第一名生肖鸡,2026年立夏过后,5件大囍事来临门!

阿龙美食记
2026-05-09 18:56:03
广东绝杀北京,4人功不可没,杜锋赛后采访,再一次惹争议?

广东绝杀北京,4人功不可没,杜锋赛后采访,再一次惹争议?

飞克体育
2026-05-10 01:05:07
低智商犯罪:熟脸真多,认出了王传君和雷佳音,却没认出北电院长

低智商犯罪:熟脸真多,认出了王传君和雷佳音,却没认出北电院长

悦君兮君不知
2026-05-08 20:39:55
老杜案将迎巨变?考夫曼临阵脱逃,退出辩护团队,莎拉要最后一搏

老杜案将迎巨变?考夫曼临阵脱逃,退出辩护团队,莎拉要最后一搏

顾蔡卫
2026-05-09 09:10:14
广州一女子为方便孩子上学,每月10万元长租酒店房间,退租后被索要3300元磨损费,酒店:有专业工程人员定价,正处理此事

广州一女子为方便孩子上学,每月10万元长租酒店房间,退租后被索要3300元磨损费,酒店:有专业工程人员定价,正处理此事

大风新闻
2026-05-08 20:51:07
20公司5月9日周末发布重大利好,并购股权公司3家 业绩高增公司3家

20公司5月9日周末发布重大利好,并购股权公司3家 业绩高增公司3家

股市皆大事
2026-05-09 10:43:26
苏超:随着比分定格3-1,无锡队连续3轮不败,泰州队无缘2连胜

苏超:随着比分定格3-1,无锡队连续3轮不败,泰州队无缘2连胜

俯身冲顶
2026-05-09 21:37:00
彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

彻底打脸!皇马球迷狂喷安切洛蒂下课,如今才懂他有多神

奶盖熊本熊
2026-05-09 04:50:02
为190元榴莲“仅退款”千里讨公道背后:不服气的商家和因反网购薅羊毛而成立的公益反诈互助会

为190元榴莲“仅退款”千里讨公道背后:不服气的商家和因反网购薅羊毛而成立的公益反诈互助会

红星新闻
2026-05-09 14:16:17
火箭报价凯尔特人布朗!乌度卡有合作基础,史蒂文斯启动交易评估

火箭报价凯尔特人布朗!乌度卡有合作基础,史蒂文斯启动交易评估

格斗社
2026-05-09 13:53:43
太硬核!媒体人评狼刺G3:强度超90年代经典战,近乎纯打架

太硬核!媒体人评狼刺G3:强度超90年代经典战,近乎纯打架

体育见习官
2026-05-09 13:11:14
前体操冠军吴柳芳再回应擦边风波:“把债还完了,我才能把体面重新捡起来”;谈及与管晨辰的争执,吴柳芳表示:“我不会去恨一个人”

前体操冠军吴柳芳再回应擦边风波:“把债还完了,我才能把体面重新捡起来”;谈及与管晨辰的争执,吴柳芳表示:“我不会去恨一个人”

扬子晚报
2026-05-07 07:43:31
21.99万起,从定价到平台,解析问道V9的“爆款”逻辑

21.99万起,从定价到平台,解析问道V9的“爆款”逻辑

极车制造
2026-04-28 22:01:11
梅西除了不在乎历史第一人!还非常客气地评估C罗!

梅西除了不在乎历史第一人!还非常客气地评估C罗!

历史第一人梅西
2026-05-08 23:06:17
小凑四叶从顶级偶像到隐退打工,改名回归后引爆全网

小凑四叶从顶级偶像到隐退打工,改名回归后引爆全网

吃瓜党二号头目
2026-05-09 10:09:02
湖南卫视停播背后:娱乐至死时代的一剂清醒针

湖南卫视停播背后:娱乐至死时代的一剂清醒针

乡野小珥
2026-05-09 01:27:52
“大波小姐”来袭!

“大波小姐”来袭!

文刀万
2026-05-04 08:14:29
全红婵拒绝浓妆却惊艳全网,昔日跳水小丫头气质大变美成牡丹

全红婵拒绝浓妆却惊艳全网,昔日跳水小丫头气质大变美成牡丹

可乐谈情感
2026-05-10 00:20:03
2026-05-10 02:12:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
582文章数 8403关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
游戏
本地
公开课
军事航空

艺术要闻

深圳终究失去“中国第一高楼”,华润接手地块!

Windows 11 PC上的Xbox模式不支持多显示器

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版