智猩猩AI整理
编辑:没方、宁宁
前几天,一个叫 DeepSeek-TUI 《狂揽11.6k Star!DeepSeek版Claude Code登顶热榜,作者是个美国人》的开源项目突然冲上 GitHub 热榜,它由美国独立开发者 Hunter Bown 打造,该项目把 DeepSeek-V4 接进终端,让开发者可以像使用 Claude Code 一样,在命令行里让 AI 读代码、改文件、跑 Shell、管理 Git,甚至调度子 Agent 协同完成任务。
这件事之所以能爆火,本质上说明了一个变化:DeepSeek-V4 不再只是一个聊天模型,而正在被开发者用来重构本地 AI 编程工作流。
如果说 DeepSeek-TUI 解决的是“怎么让 DeepSeek 像 Claude Code 一样帮你写代码”。
那么今天要给大家介绍的开源项目 ds4.c 解决的就是更底层的问题——怎么让 DeepSeek-V4-Flash 在本地高内存 Mac 设备上稳定地跑起来,成为一个可用的本地推理服务。
而这一次出手的不是普通开发者,而是大名鼎鼎的Redis之父Salvatore Sanfilippo(antirez)。不到一天,该项目在github已收获1.4k stars。
![]()
X(Twitter)链接:
https://x.com/antirez/status/2052405820235678175
![]()
项目链接:
https://github.com/antirez/ds4
简单理解,ds4.c 就是一个专门为 DeepSeek V4 Flash 打造的本地推理引擎。
为什么要为一个模型单独造推理引擎?因为大模型开源之后,真正困难的并不只是下载权重,而是如何在本地硬件上以可接受的内存占用、速度和接口形态跑起来。尤其是 DeepSeek V4 Flash 这样的 MoE 模型,虽然是 Flash 版本,但依然拥有 284B 总参数、13B 激活参数,并支持最高 1M token 上下文。
这意味着它对硬件要求极高,普通电脑难以驾驭,真正跑起来会面临内存占用巨大、长上下文 KV Cache 爆炸、推理速度、Agent 接口适配等一系列工程挑战。
ds4.c 不是一个通用的 GGUF Runner,也不是想兼容所有模型的框架。它非常克制,只专注一件事:把 DeepSeek V4 Flash 在 MacBook Pro M3 Max(128GB)和 Mac Studio M3 Ultra(512 GB) 等高端个人设备上,尽可能跑得更稳、更适合接入本地 Agent。
01
项目介绍
ds4.c 的核心理念非常 antirez 式——少即是多,专精胜于泛用。
它从模型加载、Prompt 渲染、Metal 图执行,到 KV 状态管理和 Server API,整条链路都围绕 V4 Flash 做了定制。
(1)面向 Apple Silicon 的 Metal 推理路径
ds4.c 的实际优化路径是 Apple Metal。虽然 CLI 中存在 CPU reference/debug path,但项目明确说明 Server 是 Metal-only,真正面向使用的路径是 Metal graph executor,因此它更适合高内存 MacBook Pro、Mac Studio 等 Apple Silicon 设备。
(2)更聪明的量化策略
DeepSeek V4 Flash 是 284B 总参数、13B 激活参数的 MoE 模型;而从 ds4.c 的角度看,本地运行它的最大难点就是内存占用。
ds4.c 提供 q2 / q4 两类 GGUF 权重选择。其中 q2 并不是简单粗暴地全模型压到 2-bit,而是采用非对称量化策略:主要量化 routed MoE experts,尽量保留 shared experts、projection、routing 等关键结构,从而在内存占用和模型质量之间取得平衡。
(3)针对长上下文的 KV Cache 复用
DeepSeek V4 Flash 支持 1M token 上下文,但长上下文真正消耗资源的是 KV Cache。ds4-server 会比较客户端反复发送的 token 前缀,并复用已有的 KV checkpoint,避免每次都从 token zero 重新 prefill。对于不同会话切换或服务重启后的长上下文复用,项目还提供磁盘 KV Cache,让长文档分析、代码库理解和 Agent 长任务更适合在本地持续运行。
第一次请求用户长 Prompt → Tokenize → Prefill → 生成 KV Checkpoint → 写入内存 / 磁盘第二次请求新 Prompt → 匹配已有 token 前缀 → 命中 KV Cache → 跳过重复 Prefill → 继续生成
(4)兼顾 CLI 和 Server 两种使用方式
ds4.c 既可以在终端中直接交互,也可以启动本地 Server,对接更复杂的 Agent 工作流。CLI 适合开发者快速测试模型、进行多轮对话或读取本地文件;Server 则更适合接入代码助手、Agent 客户端和自动化工具链。
在服务形态上,ds4-server 提供 OpenAI 风格的 /v1/chat/completions、/v1/completions,以及 Anthropic 风格的 /v1/messages 端点,可用于接入 opencode、Pi、Claude Code 等本地 Agent 客户端。不过它当前仍是 alpha 质量代码,Server 是 Metal-only,推理通过单个 Metal worker 串行执行,并不是面向高并发生产部署的通用推理框架。
ds4.c 的价值不在于“通用”,而在于“专用”。它展示了一种新的本地推理思路:围绕一个关键模型、一类关键硬件,把推理链路做得更短、更直接,让 DeepSeek V4 Flash 真正在本地进入可运行、可接入、可持续使用的状态。
02
使用方法
官方建议,128GB RAM 机器选择 q2 模型,256GB 及以上机器可以选择 q4 模型。
最基础的安装流程很简单。
先克隆项目,然后下载模型,最后编译:
git clone https://github.com/antirez/ds4.gitcd ds4./download_model.sh q2 # 128GB RAM 机器推荐# 或者./download_model.sh q4 # 256GB 及以上 RAM 机器推荐make
下载脚本会自动拉取对应的 GGUF 权重,并设置本地模型链接;由于模型文件较大,脚本也支持断点续传。
如果只是想快速测试,可以直接用 CLI 一次性提问:
./ds4 -p "Explain Redis streams in one paragraph."如果不加 -p,则会进入交互式对话模式:
./ds4进入后会看到类似下面的提示符:
ds 4>交互模式中可以切换 thinking mode、调整上下文窗口、读取本地文件,也可以随时退出。
如果要把它当成本地 API 服务使用,可以启动 ds4-server:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192然后用 OpenAI 风格接口调用:
curl http://127.0.0.1:8000/v1/chat/completions \-H 'Content-Type: application/json' \-d '{"model": "deepseek-v4-flash","messages": [{"role": "user","content": "List three Redis design principles."}],"stream": true}'
对于 Agent 场景,官方 README 建议启动 server 时根据机器内存合理设置 --ctx。虽然模型本身支持 1M token 上下文,但 README 提醒,在 128GB RAM 机器上,q2 量化模型本身已经占用约 81GB,如果再配置完整 1M 上下文,额外 KV 相关内存压力会很大,因此更现实的选择是把上下文窗口设置在 100K 到 300K token 区间。
这也是 ds4.c 的现实定位——它不是让普通笔记本“无痛跑满百万上下文”,而是把一个超大 MoE 模型压到高端个人设备可实验、可接入 Agent、可复用缓存的程度。
03
大模型竞争,正在从“谁更大”
走向“谁更能落地”
过去一年,大模型竞争的焦点大多集中在参数规模、推理能力、榜单分数和 API 价格上。谁的模型更大、上下文更长、谁在数学、代码、Agent 任务上得分更高,往往就能成为行业热点。
但随着模型能力逐渐逼近真实应用场景,一个更底层的问题开始凸显:模型本身强不强是一回事,能不能被高效、稳定、低成本地部署到真实机器、真实工作流和真实开发者手里,是另一回事。
尤其在 Agent 时代,这个问题会被进一步放大。
未来的智能体不再是简单问答,而是要长期阅读代码仓库、处理复杂文档、调用外部工具、管理任务状态,并在多轮交互中持续保留上下文。
这要求底层模型不仅要擅长推理,还必须能承受长上下文、频繁请求、工具调用、缓存复用以及本地化部署带来的严苛工程压力。
从这个角度看,DeepSeek-V4-Flash 提供了一个极具潜力的高效 MoE 模型样本,而 ds4.c 则把这个样本真正推进到真实应用场景:本地推理、Apple Metal 加速、Agent 接口适配、长上下文 KV Cache 复用,以及 OpenAI / Anthropic 风格的 API 兼容。
当开发者能够在自己的机器上轻松部署足够强大的推理模型,再叠加上成熟好用的智能体框架,AI Agent 才会真正从“云端演示”走向“本地可控”,从“单次任务助手”走向“长期工作伙伴”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.