做本地AI开发的人,大概都遇到过这个 dilemma:要么用现成的GUI工具,省心但没法调参;要么自己搭命令行环境,灵活却折腾。一个叫Jun Kim的开发者干脆自己写了一个——oMLX,一个能从macOS菜单栏直接管理的LLM推理服务器。
核心卖点很直白:连续批处理(continuous batching)加上分层KV缓存。KV缓存被拆成两层——热数据驻留内存,冷数据落盘SSD。即使对话中途切换上下文,历史记录也能跨请求复用。对用Claude Code这类工具写代码的人来说,这意味着本地大模型终于能跟上实际工作流了。
![]()
安装方式有三种:直接下.dmg拖进Applications;用Homebrew装(支持后台服务自动重启);或者从源码构建。注意macOS应用版和CLI是分开的——前者自带应用内自动更新,后者需要单独brew install。系统要求卡得死:macOS 15.0+、Python 3.10+、Apple Silicon(M1到M4)。
启动后走三步:设模型目录、启服务、下第一个模型。服务器会自动扫描子目录里的LLM、VLM、嵌入模型和重排模型。OpenAI兼容的客户端连localhost:8000/v1就能用,自带聊天界面在/admin/chat。后台服务用brew services管理,零配置默认路径是~/.omlx/models,端口8000。想改设置要么设环境变量,要么跑一遍omlx serve带参数,配置会持久化到~/.omlx/settings.json。
日志分两处:服务日志在$(brew --prefix)/var/log/omlx.log,服务器结构化日志在~/.omlx/logs/server.log。Web UI支持实时监控、模型管理、聊天、跑分和单模型设置,界面语言有英韩日中俄五种,CDN依赖全部本地化。
可选装MCP(Model Context Protocol)支持,装完能对接更多工具链。这个项目现在托管在GitHub,主页是omlx.ai。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.