Ollama换上苹果MLX引擎：本地AI提速3倍|内存|mac|苹果设备|ollama

Ollama换上苹果MLX引擎：本地AI提速3倍

2026-04-01 07:30:03　来源: 固件更新中

北京举报

分享至

本地跑大模型的用户有个共同噩梦：风扇狂转、内存爆满、生成一句话能泡完一杯咖啡。Ollama 0.19预览版的发布，把这个等待时间砍到了原来的三分之一——前提是，你得有台32G内存的Mac。

从"能跑"到"跑得动"，中间隔着一个MLX

Ollama这个工具在开发者圈子里不算陌生。它让Mac、Linux和Windows用户能把AI模型下载到本地运行，不用联网、不用把数据交给云端。模型来源也开放，Hugging Face社区或者直接找模型提供方都能搞到。

但本地跑大语言模型（LLM）一直是场资源消耗战。哪怕是小模型，吃起内存和显存来也毫不客气。Ollama之前的版本其实已经做了不少优化，这次0.19预览版的动作更大：整个底层换成了苹果的机器学习框架MLX。

MLX的核心卖点是统一内存架构（Unified Memory）。传统方案里，CPU内存和GPU显存各管各的，数据搬来搬去就是性能黑洞。MLX让M系列芯片把内存池共享，模型权重不用复制就能被GPU直接调用。Ollama团队的原话是，这带来了"a large speedup on all Apple Silicon devices"。

M5芯片的隐藏技能被激活了

更具体的数字来自苹果新发布的M5系列。Ollama 0.19在M5、M5 Pro和M5 Max上调用了GPU Neural Accelerators，专门优化两个指标：首Token延迟（TTFT）和生成速度（tokens per second）。

翻译成人话：以前点完生成要等几秒才能看到第一个字跳出来，现在几乎是即时响应；以前每秒蹦几个字，现在流畅得像在本地跑记事本。

官方给出的应用场景很具体：个人助手类工具比如OpenClaw，还有编程助手Claude Code、OpenCode、Codex这些"代码代理"。这类工具的特点是交互频繁、上下文长，对延迟极度敏感。MLX架构下的内存效率提升，正好打在痛点上。

但这里有个"但是"。

Ollama在发布说明里加了一行加粗提醒："please make sure you have a Mac with more than 32GB of unified memory"。32G统一内存，在当前Mac产品线里意味着至少M3 Pro起步，或者上M3 Max。基础款M3、M4的8G/16G配置被明确排除在外。

门槛之外，还有谁被挡在门外

这个内存要求暴露了一个尴尬现实：本地AI的"民主化"口号喊了两年，硬件门槛不降反升。16G内存曾经是Mac的甜点配置，现在连入门资格都没有。

MLX本身是苹果2023年底开源的框架，设计目标就是让开发者更容易在苹果芯片上跑机器学习。Ollama adoption MLX，某种程度上是苹果生态的"近水楼台"——同样的模型，在MLX优化下能比通用方案快出一截，但代价是你得买更贵的机器。

对比云端方案如ChatGPT，本地部署的优势始终是数据隐私和离线可用。Ollama这次提速，缩小了本地与云端的体验差距，但32G内存的硬性筛选，又把一大批潜在用户推回了云端。

一个细节值得玩味：Ollama的发布说明里，M5系列的性能提升被详细列举，但旧款M1/M2的优化幅度只字未提。"all Apple Silicon devices"的表述，是否包括初代M1的8G机型？官方没有给数据，用户只能自己试。

目前0.19还是预览版，正式版的发布时间未定。对于已经手握32G内存Mac的用户，这是个免费升级；对于还在观望的，问题变成了：为了本地跑AI，值不值得换机？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.