Redis之父助力DeepSeek-V4：Mac上高效推理，单日飙升1.4k Star！|调用|mac|上下文|自然语言|redis|deepseek

Redis之父助力DeepSeek-V4：Mac上高效推理，单日飙升1.4k Star！

分享至

智猩猩AI整理

编辑：没方、宁宁

前几天，一个叫 DeepSeek-TUI 《狂揽11.6k Star！DeepSeek版Claude Code登顶热榜，作者是个美国人》的开源项目突然冲上 GitHub 热榜，它由美国独立开发者 Hunter Bown 打造，该项目把 DeepSeek-V4 接进终端，让开发者可以像使用 Claude Code 一样，在命令行里让 AI 读代码、改文件、跑 Shell、管理 Git，甚至调度子 Agent 协同完成任务。

这件事之所以能爆火，本质上说明了一个变化：DeepSeek-V4 不再只是一个聊天模型，而正在被开发者用来重构本地 AI 编程工作流。

如果说 DeepSeek-TUI 解决的是“怎么让 DeepSeek 像 Claude Code 一样帮你写代码”。

那么今天要给大家介绍的开源项目 ds4.c 解决的就是更底层的问题——怎么让 DeepSeek-V4-Flash 在本地高内存 Mac 设备上稳定地跑起来，成为一个可用的本地推理服务。

而这一次出手的不是普通开发者，而是大名鼎鼎的Redis之父Salvatore Sanfilippo（antirez）。不到一天，该项目在github已收获1.4k stars。

X（Twitter）链接：
https://x.com/antirez/status/2052405820235678175

项目链接：
https://github.com/antirez/ds4

简单理解，ds4.c 就是一个专门为 DeepSeek V4 Flash 打造的本地推理引擎。

为什么要为一个模型单独造推理引擎？因为大模型开源之后，真正困难的并不只是下载权重，而是如何在本地硬件上以可接受的内存占用、速度和接口形态跑起来。尤其是 DeepSeek V4 Flash 这样的 MoE 模型，虽然是 Flash 版本，但依然拥有 284B 总参数、13B 激活参数，并支持最高 1M token 上下文。

这意味着它对硬件要求极高，普通电脑难以驾驭，真正跑起来会面临内存占用巨大、长上下文 KV Cache 爆炸、推理速度、Agent 接口适配等一系列工程挑战。

ds4.c 不是一个通用的 GGUF Runner，也不是想兼容所有模型的框架。它非常克制，只专注一件事：把 DeepSeek V4 Flash 在 MacBook Pro M3 Max（128GB）和 Mac Studio M3 Ultra（512 GB）等高端个人设备上，尽可能跑得更稳、更适合接入本地 Agent。

项目介绍

ds4.c 的核心理念非常 antirez 式——少即是多，专精胜于泛用。

它从模型加载、Prompt 渲染、Metal 图执行，到 KV 状态管理和 Server API，整条链路都围绕 V4 Flash 做了定制。

（1）面向 Apple Silicon 的 Metal 推理路径

ds4.c 的实际优化路径是 Apple Metal。虽然 CLI 中存在 CPU reference/debug path，但项目明确说明 Server 是 Metal-only，真正面向使用的路径是 Metal graph executor，因此它更适合高内存 MacBook Pro、Mac Studio 等 Apple Silicon 设备。

（2）更聪明的量化策略

DeepSeek V4 Flash 是 284B 总参数、13B 激活参数的 MoE 模型；而从 ds4.c 的角度看，本地运行它的最大难点就是内存占用。

ds4.c 提供 q2 / q4 两类 GGUF 权重选择。其中 q2 并不是简单粗暴地全模型压到 2-bit，而是采用非对称量化策略：主要量化 routed MoE experts，尽量保留 shared experts、projection、routing 等关键结构，从而在内存占用和模型质量之间取得平衡。

（3）针对长上下文的 KV Cache 复用

DeepSeek V4 Flash 支持 1M token 上下文，但长上下文真正消耗资源的是 KV Cache。ds4-server 会比较客户端反复发送的 token 前缀，并复用已有的 KV checkpoint，避免每次都从 token zero 重新 prefill。对于不同会话切换或服务重启后的长上下文复用，项目还提供磁盘 KV Cache，让长文档分析、代码库理解和 Agent 长任务更适合在本地持续运行。

第一次请求用户长 Prompt → Tokenize → Prefill → 生成 KV Checkpoint → 写入内存 / 磁盘
第二次请求新 Prompt → 匹配已有 token 前缀 → 命中 KV Cache → 跳过重复 Prefill → 继续生成

（4）兼顾 CLI 和 Server 两种使用方式

ds4.c 既可以在终端中直接交互，也可以启动本地 Server，对接更复杂的 Agent 工作流。CLI 适合开发者快速测试模型、进行多轮对话或读取本地文件；Server 则更适合接入代码助手、Agent 客户端和自动化工具链。

在服务形态上，ds4-server 提供 OpenAI 风格的 /v1/chat/completions、/v1/completions，以及 Anthropic 风格的 /v1/messages 端点，可用于接入 opencode、Pi、Claude Code 等本地 Agent 客户端。不过它当前仍是 alpha 质量代码，Server 是 Metal-only，推理通过单个 Metal worker 串行执行，并不是面向高并发生产部署的通用推理框架。

ds4.c 的价值不在于“通用”，而在于“专用”。它展示了一种新的本地推理思路：围绕一个关键模型、一类关键硬件，把推理链路做得更短、更直接，让 DeepSeek V4 Flash 真正在本地进入可运行、可接入、可持续使用的状态。

使用方法

官方建议，128GB RAM 机器选择 q2 模型，256GB 及以上机器可以选择 q4 模型。

最基础的安装流程很简单。

先克隆项目，然后下载模型，最后编译：

git clone https://github.com/antirez/ds4.gitcd ds4
./download_model.sh q2   # 128GB RAM 机器推荐# 或者./download_model.sh q4   # 256GB 及以上 RAM 机器推荐
make

下载脚本会自动拉取对应的 GGUF 权重，并设置本地模型链接；由于模型文件较大，脚本也支持断点续传。

如果只是想快速测试，可以直接用 CLI 一次性提问：

./ds4 -p "Explain Redis streams in one paragraph."

如果不加 -p，则会进入交互式对话模式：

./ds4

进入后会看到类似下面的提示符：

ds 4>

交互模式中可以切换 thinking mode、调整上下文窗口、读取本地文件，也可以随时退出。

如果要把它当成本地 API 服务使用，可以启动 ds4-server：

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

然后用 OpenAI 风格接口调用：

curl http://127.0.0.1:8000/v1/chat/completions \  -H 'Content-Type: application/json' \  -d '{    "model": "deepseek-v4-flash",    "messages": [      {        "role": "user",        "content": "List three Redis design principles."      }    ],    "stream": true  }'

对于 Agent 场景，官方 README 建议启动 server 时根据机器内存合理设置 --ctx。虽然模型本身支持 1M token 上下文，但 README 提醒，在 128GB RAM 机器上，q2 量化模型本身已经占用约 81GB，如果再配置完整 1M 上下文，额外 KV 相关内存压力会很大，因此更现实的选择是把上下文窗口设置在 100K 到 300K token 区间。

这也是 ds4.c 的现实定位——它不是让普通笔记本“无痛跑满百万上下文”，而是把一个超大 MoE 模型压到高端个人设备可实验、可接入 Agent、可复用缓存的程度。

大模型竞争，正在从“谁更大”

走向“谁更能落地”

过去一年，大模型竞争的焦点大多集中在参数规模、推理能力、榜单分数和 API 价格上。谁的模型更大、上下文更长、谁在数学、代码、Agent 任务上得分更高，往往就能成为行业热点。

但随着模型能力逐渐逼近真实应用场景，一个更底层的问题开始凸显：模型本身强不强是一回事，能不能被高效、稳定、低成本地部署到真实机器、真实工作流和真实开发者手里，是另一回事。

尤其在 Agent 时代，这个问题会被进一步放大。

未来的智能体不再是简单问答，而是要长期阅读代码仓库、处理复杂文档、调用外部工具、管理任务状态，并在多轮交互中持续保留上下文。

这要求底层模型不仅要擅长推理，还必须能承受长上下文、频繁请求、工具调用、缓存复用以及本地化部署带来的严苛工程压力。

从这个角度看，DeepSeek-V4-Flash 提供了一个极具潜力的高效 MoE 模型样本，而 ds4.c 则把这个样本真正推进到真实应用场景：本地推理、Apple Metal 加速、Agent 接口适配、长上下文 KV Cache 复用，以及 OpenAI / Anthropic 风格的 API 兼容。

当开发者能够在自己的机器上轻松部署足够强大的推理模型，再叠加上成熟好用的智能体框架，AI Agent 才会真正从“云端演示”走向“本地可控”，从“单次任务助手”走向“长期工作伙伴”。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.