![]()
Mac用户跑大模型,过去像用家用轿车拉货——能跑,但发动机总在嘶吼。Ollama最新版本直接换了动力总成:接入苹果MLX框架后,M系列芯片的本地推理速度提升40%,内存占用砍掉一半。
这个数字来自Ollama 0.6.0版本的官方基准测试。团队用Llama 3.1 8B模型在M3 Max上对比,MLX后端比之前的llama.cpp后端快出近四成。更关键的是,同样跑70B参数的大模型,内存峰值从48GB压到24GB以下——这意味着M3 Max 36GB内存的机器,现在能流畅运行过去想都不敢想的规格。
MLX不是新面孔,但Ollama这次接得够狠
苹果2023年底开源MLX时,定位很克制:给机器学习研究者用的NumPy风格框架。它利用了M系列芯片的统一内存架构(CPU和GPU共享同一块内存池),省去了传统架构里数据搬来搬去的开销。
Ollama创始人Jeffrey Morgan在GitHub讨论区解释过选择逻辑:「llama.cpp是通用方案,MLX是苹果特供。既然我们的用户六成以上用Mac,没理由不用原生工具。」这个判断背后有个冷知识——Ollama的Mac用户占比远超行业平均,因为Windows和Linux用户有更多云端选项,而Mac用户被困在本地。
MLX的核心设计叫「延迟计算」(lazy evaluation)。张量运算不会立即执行,而是先攒成一张计算图,等真正需要结果时再统一优化调度。对生成式AI这种"预测下一个token"的串行任务,能减少大量冗余内存分配。
速度提升的代价:生态割裂
![]()
接入MLX不是无痛升级。Ollama团队花了三个月重构底层,把原来的C++推理引擎换成Python/MLX混合栈。带来的副作用是:部分量化格式(quantization format)暂时不支持,一些社区微调模型需要重新转换。
Reddit上有个高赞吐槽很精准:「终于快了,但我收藏的17个GGUF模型里有4个跑不起来。」GGUF是llama.cpp的模型格式,MLX有自己的 safetensors 偏好。Ollama的折中方案是自动转换,但首次加载会多花几分钟。
更隐蔽的代价在可移植性。用MLX跑的模型,配置文件里多了苹果特有的元数据。有开发者试过把同一份Ollama模型目录拷到Linux机器,直接报错找不到MLX后端——虽然官方文档写了"跨平台兼容",但性能优化和通用性从来都是跷跷板。
苹果沉默,但MLX在渗透
苹果从不大张旗鼓推MLX。官网文档更新频率低于同类框架,WWDC演讲里提它的次数屈指可数。但过去18个月,MLX的GitHub星标从0涨到1.8万,增速超过Google的JAX和Meta的PyTorch同期。
这个"低调渗透"策略和苹果一贯的开发者关系一脉相承:给工具,但不给承诺。MLX的API设计刻意模仿NumPy,降低Python开发者的迁移成本;但核心算子(operator)的优化细节从不公开,第三方想深度定制只能读源码。
Ollama不是第一个接MLX的。Hugging Face的transformers库去年就支持了MLX后端,但默认关闭;LM Studio在Mac版里悄悄切换过,又因为对旧机型兼容性差而回退。Ollama的激进在于:0.6.0版本直接把MLX设为M系列芯片的默认后端,不给用户选。
![]()
这个决策的风险在长尾机型。M1芯片的神经网络引擎(Neural Engine)规格较老,MLX的某些优化路径反而比llama.cpp慢。Ollama的解决方式是动态回退——检测到M1时自动切回旧后端,但用户手册里没写清楚,导致部分M1用户升级后困惑于"为什么我的模型变卡了"。
本地AI的军备竞赛,Mac先拿到补给
把大模型压到本地跑,2024年成了显学。OpenAI的桌面客户端、Anthropic的Claude本地缓存、Google的Gemini Nano,都在抢"不上云"的场景。但PC端的赢家还没出现——Windows的NPU生态碎片化,Linux依赖社区拼凑。
Mac的统一内存架构成了意外优势。M3 Ultra最高支持512GB内存,理论上能跑完整的Llama 3.1 405B(虽然慢)。MLX把这个硬件潜力翻译成了软件层面的易用性:开发者不用操心CUDA版本、不用配Rocm环境,pip install mlx-lm就能跑。
Ollama的商业模式也卡在这个节点。它靠企业版授权盈利,核心卖点是"让工程师在笔记本上调试生产级模型"。MLX接入后,这个卖点从"能跑"升级成"跑得够快能演示"——对需要给客户现场演示POC的售前工程师,40%的提速可能决定单子成败。
GitHub上有个issue记录了这个场景的真实反馈。某AI初创公司的CTO写道:「上周去客户现场,用M3 Pro跑70B模型做实时演示,以前要借云服务器做跳板,现在直接本地起。客户问'这没联网吧',我当场拔网线给他们看。」
一个未完成的细节
0.6.0版本发布一周后,Ollama团队在讨论区置顶了一条回复:MLX后端的Windows移植"在评估中",但没有时间表。这个表态和苹果MLX的官方立场一致——框架本身只支持macOS和iOS。
Windows用户能用的最快方案,是WSL2里跑Linux版Ollama,再桥接回Windows前端。有开发者测过,同样硬件下比原生Mac慢3到5倍。本地AI的军备竞赛里,Mac用户先拿到了补给包,但补给能维持多久优势——取决于苹果愿不愿意把MLX铺到更多平台,还是永远把它当成生态护城河?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.