![]()
本地跑大模型的用户有个共同噩梦:风扇狂转、内存爆满、生成一句话能泡完一杯咖啡。Ollama 0.19预览版的发布,把这个等待时间砍到了原来的三分之一——前提是,你得有台32G内存的Mac。
从"能跑"到"跑得动",中间隔着一个MLX
Ollama这个工具在开发者圈子里不算陌生。它让Mac、Linux和Windows用户能把AI模型下载到本地运行,不用联网、不用把数据交给云端。模型来源也开放,Hugging Face社区或者直接找模型提供方都能搞到。
但本地跑大语言模型(LLM)一直是场资源消耗战。哪怕是小模型,吃起内存和显存来也毫不客气。Ollama之前的版本其实已经做了不少优化,这次0.19预览版的动作更大:整个底层换成了苹果的机器学习框架MLX。
MLX的核心卖点是统一内存架构(Unified Memory)。传统方案里,CPU内存和GPU显存各管各的,数据搬来搬去就是性能黑洞。MLX让M系列芯片把内存池共享,模型权重不用复制就能被GPU直接调用。Ollama团队的原话是,这带来了"a large speedup on all Apple Silicon devices"。
![]()
M5芯片的隐藏技能被激活了
更具体的数字来自苹果新发布的M5系列。Ollama 0.19在M5、M5 Pro和M5 Max上调用了GPU Neural Accelerators,专门优化两个指标:首Token延迟(TTFT)和生成速度(tokens per second)。
翻译成人话:以前点完生成要等几秒才能看到第一个字跳出来,现在几乎是即时响应;以前每秒蹦几个字,现在流畅得像在本地跑记事本。
官方给出的应用场景很具体:个人助手类工具比如OpenClaw,还有编程助手Claude Code、OpenCode、Codex这些"代码代理"。这类工具的特点是交互频繁、上下文长,对延迟极度敏感。MLX架构下的内存效率提升,正好打在痛点上。
但这里有个"但是"。
![]()
Ollama在发布说明里加了一行加粗提醒:"please make sure you have a Mac with more than 32GB of unified memory"。32G统一内存,在当前Mac产品线里意味着至少M3 Pro起步,或者上M3 Max。基础款M3、M4的8G/16G配置被明确排除在外。
门槛之外,还有谁被挡在门外
这个内存要求暴露了一个尴尬现实:本地AI的"民主化"口号喊了两年,硬件门槛不降反升。16G内存曾经是Mac的甜点配置,现在连入门资格都没有。
MLX本身是苹果2023年底开源的框架,设计目标就是让开发者更容易在苹果芯片上跑机器学习。Ollama adoption MLX,某种程度上是苹果生态的"近水楼台"——同样的模型,在MLX优化下能比通用方案快出一截,但代价是你得买更贵的机器。
对比云端方案如ChatGPT,本地部署的优势始终是数据隐私和离线可用。Ollama这次提速,缩小了本地与云端的体验差距,但32G内存的硬性筛选,又把一大批潜在用户推回了云端。
一个细节值得玩味:Ollama的发布说明里,M5系列的性能提升被详细列举,但旧款M1/M2的优化幅度只字未提。"all Apple Silicon devices"的表述,是否包括初代M1的8G机型?官方没有给数据,用户只能自己试。
目前0.19还是预览版,正式版的发布时间未定。对于已经手握32G内存Mac的用户,这是个免费升级;对于还在观望的,问题变成了:为了本地跑AI,值不值得换机?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.