苹果用户等了3年，32G Mac终于能跑70B大模型了|内存|硬盘|mac|gpu|nvme|苹果公司|液态玻璃

苹果用户等了3年，32G Mac终于能跑70B大模型了

2026-03-25 04:08:16　来源: 像素与芯片

北京举报

分享至

「你的Mac跑不了这个模型」——这句话在过去三年里，成了无数开发者的开机画面。GitHub上那个叫hypura的项目，最近用214个star证明：有人终于受够了。

它干的事很简单：让32G内存的Mac Mini流畅运行31G的Mixtral 8x7B，甚至能啃下40G的Llama 70B。而原版llama.cpp？直接崩溃，连OOM killer都懒得等。

苹果给了一把好刀，但刀刃朝内

苹果Silicon的设计像个精致的陷阱。统一内存带宽够快，NVMe（非易失性内存主机控制器接口规范）顺序读取能到5.1GB/s，但容量锁死——32G就是32G，焊在主板上，加钱都没门。

传统思路是内存映射（mmap）。模型太大？扔给操作系统，让它自己swap（交换）去。结果是swap thrashing（交换抖动）：硬盘灯狂闪，风扇起飞，最后系统一刀把你进程砍了。这不是慢，是死。

hypura的作者看穿了这套逻辑。操作系统不懂模型架构，它只知道「这个页最近没访问，踢出去」。但Transformer的注意力层和前馈网络，访问模式天差地别。让OS（操作系统）做决策，等于让出租车司机帮你优化供应链——专业不对口。

三层存储，一场精密的接力赛

hypura把硬件拆成三级：GPU显存、RAM（内存）、NVMe硬盘。每个tensor（张量）该住哪，它算得明明白白。

核心是一个placement optimization（放置优化）问题。系统先读GGUF文件，再给你的硬件做CT：GPU工作集多大、RAM剩多少、NVMe带宽实测多少。然后给每个tensor打分——放GPU多快、放RAM多快、放硬盘又要付出多少带宽代价。

MoE（混合专家模型）模型在这里占了便宜。Mixtral 8x7B有8个专家，但每次只激活2个。hypura把非专家tensor焊死在GPU，专家tensor按需从NVMe流式读取。2.2 tok/s的生成速度，够你写代码时跟AI对话了。

非MoE模型更惨一点。Llama 70B没有稀疏性可钻，只能dense FFN-streaming（稠密前馈网络流式传输）。0.3 tok/s，慢，但能跑完。原版？连这个数字都看不到。

零开销的隐藏承诺

有个细节容易被忽略：hypura对「能装进内存的模型」承诺零开销。

这很重要。很多「优化工具」为了展示极端场景的魔法，会在正常场景偷偷加税。hypura没这么干——如果模型fit（适配），它直接走Metal GPU全速，不插一脚。

自动调参也是真的自动。pool buffer size（池缓冲区大小）、prefetch depth（预取深度）、memory budgets（内存预算），全部从硬件profile（画像）算出来。用户不用啃文档调yaml，这是产品经理思维，不是研究员思维。

构建依赖很克制：Rust 1.75+、CMake，没了。没有CUDA（英伟达并行计算平台）的尸山血海，没有Python环境的九层地狱。苹果生态的开发者，cargo build之后就能跑。

214个star背后的沉默大多数

项目主页没写作者是谁，但CLAUDE.md的存在泄露了线索——这大概是某个被Claude（Anthropic公司AI助手）辅助过的周末项目，或者反过来。

真正有趣的是benchmark（基准测试）的诚实。2.2 tok/s和0.3 tok/s都标出来了，没拿「理论峰值」糊弄人。M1 Max 32G的配置也写得清楚，不是「最高配Mac Studio」的模糊说法。

苹果WWDC（全球开发者大会）上会不会出现类似功能？历史经验是：第三方把路探明白，官方才慢悠悠跟进。Core ML（苹果机器学习框架）对LLM（大语言模型）的支持至今像个半成品，而hypura已经能跑70B了。

有个用户场景被反复提及：「interactive speeds（交互速度）」。不是批处理，不是离线生成，是你在终端打字、AI实时回应的那种流畅。2.2 tok/s够慢，但够用了。这是产品定义的胜利——先解决「能不能跑」，再优化「跑多快」。

项目README的最后一行是构建说明，没写roadmap（路线图），没喊口号。但RESEARCH_INTEGRATION_PLAN.md的存在暗示：作者知道这东西的学术价值，只是没急着发论文。

214个star，6个fork。数字不大，但点star的人里，大概有不少是默默删掉llama.cpp、换上hypura之后，长舒一口气的32G Mac用户。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

苹果用户等了3年，32G Mac终于能跑70B大模型了

苹果给了一把好刀，但刀刃朝内

三层存储，一场精密的接力赛

零开销的隐藏承诺

214个star背后的沉默大多数

苹果WWDC26全球开发者大会官宣6月9日开幕

浙江海岛被指打响"取消中考第一枪" 有学生心态松懈

浙江海岛被指打响"取消中考第一枪" 有学生心态松懈

NBA最强左手射手，是个右撇子

张雪峰经抢救无效不幸去世 年仅41岁

张雪峰的多面人生:从寒门导师到教育商人

红极一时却草草收场，Sora宣布正式关停

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

今年考研复试线暴涨，部分专业涨幅超150分，湘雅医学院为何下降

当年轻女性，闯入电竞圈

罗泾千亩花海盛放！以镜头为笔，定格金色春日盛景～

春日吃花第二站——陕西

索尼架构师亲述：PS5在未来帧数会翻倍！

张雪峰经抢救无效不幸去世年仅41岁