网易首页 > 网易号 > 正文 申请入驻

最近很热门的oMLX,Mac端大模型本地部署新选择,Claude-Opus-4.6 蒸馏版 Qwen3.5-9B 实测

0
分享至

oMLX 走的是 Apple Silicon + MLX 这条路,Windows 和 NVIDIA 这边的朋友,这篇先看看热闹就好

前文,评论区好几个兄弟推荐测试 oMLX:

  • 博主有时间可以研究一下oMLX这个替代 LM Studio,据说比 lm 快很多倍。

  • 听说 omlx 比 lm studio 更好用些,占用内存更小,有没有尝试部署一下?

  • 有大佬做成适合 omlx 跑的 fp8 量化版了,大概 10G,可以试试。同样机器配置,换用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。虽然回复慢,但还能用。而 ollama 跑就卡顿的很。

花半天玩了一下,先看大家最关心的测试情况:

  • oMLX 有很多亮点,UI、菜单栏、管理后台仪表板,Chat 页面都很漂亮,底层有 SSD KV 缓存、设置热缓存、支持 MCP、一键对接各种 AI Coding Agent,OpenAI/Anthropic 兼容接口、针对 Claude Code 优化等

  • 单请求生成速度约 20 token/s,峰值显存/统一内存占用约 5.7GB

  • 无法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以强跑,但只能加载,执行任务直接彻底卡死

安装、配置、使用教程

安装后直接进入 Perference,自定义模型位置,端口号

模型位置后面我把他改到了外接移动硬盘


菜单栏确实方便,一键启停 server、进入管理后台,进入聊天界面


先要进入模型 tab 然后点下载器


下面的浏览模型可以直接看能否支持当前主机


下载速度极慢,后来我换成了 modelcope


感觉也有 bug,直接从上面下载,他会默认下载整个项目下的不同精度模型,而我只需要 Q4


27B 我也下了


没有选择 Jackrong 原版,主要是被 mlx-community 这句话吸引了


但是 27B 最低使得 24 GB 及以上统一内存的 Mac 都能运行该模型,且还有足够空间容纳大型上下文窗口,推荐是 32GB

官方测试数据:

Metric

Result

Model load time

2.4 seconds

Prompt ingestion

86.5 tokens/sec

Generation speed

15.7 tokens/sec

Peak RAM usage

15.6 GB

Bit-rate

4.501 bits/weight

Final size

14 GB (3 shards)

下载过程中进入设置页


资源管理这里可以控制内存占用情况,


下载完毕,可以选择在设置 - 模型设置中启动,刚开始居然没找到哪里加载


聊天页面,很清爽


仪表盘会记录模型运行情况


现在往下也能把启动的模型一见接入到 Codex、OpenCode、OpenClaw


它还可以做基准测试


32K 单请求测试,电脑已经有点卡了,TTFT 高的离谱,TPS 只有 11

测试

TTFT (ms)

TPOT (ms/tok)

pp TPS

tg TPS

端到端延迟

吞吐量

峰值内存

pp32768/tg128

187.4 tok/s

11.8 tok/s

185.686s

177.2 tok/s

9.06 GB

单请求 + 批处理能力没敢开高,tg TPS 20.2 tok/s。输入拉长到 4096 token 后 TTFT 从 4.8s 变成 18.8s,tg TPS 还在 19.8 tok/s,几乎没掉,Peak Mem 从 5.66 GB 到 6.40 GB

并发到 2-4 路时总吞吐提升明显,但 8 路已经接近平台上限,延迟代价很大。


依旧测试阅读理解+SVG 代码生成 + 审美

感觉不稳了,需要抽卡


重新尝试可以识别到四次,svg 写的很丑


让其优化之后,它的脑回路让我想笑,它直接设计了模拟人物动作,完全偏离了主题


27B 无法跑起来

改了 N 多配置都不行,有高手可以出出主意

我要换 32G 的 Mac 了


但是 LM Studio 就可以用 option 按键强跑,只是无法执行任务,机器卡死


其他再说说

看了官方文档,再说几个 oMLX 的亮点,可是我都没尝试

1. 连续批处理

它基于mlx-lmBatchGenerator做并发处理,首页给了一组非常直观的 benchmark,机器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

  • 单请求、8k 上下文时,Prompt 处理速度能到941 tok/s

  • Token 生成速度大约54.0 tok/s

  • 8x连续批处理下,总吞吐能到190.2 tok/s

  • 对应3.36 倍吞吐提升

  • 内存占用峰值 73 GB

另一组我很关注的数据是Qwen3-Coder-Next-8bit

  • 8k 上下文时,Prompt 处理速度2009 tok/s

  • 8x批处理总吞吐243.3 tok/s

  • 加速比来到4.14 倍

  • 内存占用峰值 85GB

2. Claude Code 优化

README 里有一句:

支持在 Claude Code 中使用较小上下文模型的上下文缩放。通过缩放上报的 Token 数量,让自动压缩在合适的时机触发,同时提供 SSE keep-alive 防止长时间预填充导致的读取超时。

官方给出的方向主要有两个:

  • 通过上下文缩放,让较小上下文模型在 Claude Code 里更容易触发合适的自动压缩时机

  • 通过 SSE keep-alive,降低长时间 prefill 时读超时的风险

它本身还支持:

  • OpenAI 兼容接口:http://localhost:8000/v1

  • Anthropic 兼容接口:POST /v1/messages

  • 工具调用

  • MCP 集成

3. 多模型服务

它在同一服务里支持:

  • 文本 LLM

  • VLM

  • OCR 模型

  • Embedding

  • Reranker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子凌晨推搡武警后续!全网社死仅开胃菜,动手那刻,性质就变了

女子凌晨推搡武警后续!全网社死仅开胃菜,动手那刻,性质就变了

揽星河的笔记
2026-05-14 15:04:04
肖磊:特朗普访华团队里有个人非常特殊

肖磊:特朗普访华团队里有个人非常特殊

肖磊看世界
2026-05-14 14:06:24
鲁比奥点赞人民大会堂中式装饰,A股相关概念有望迎来大涨

鲁比奥点赞人民大会堂中式装饰,A股相关概念有望迎来大涨

东方豪侠
2026-05-14 16:35:45
纳斯达克中国金龙指数跌幅扩大,现跌3%,最新报7062.48点

纳斯达克中国金龙指数跌幅扩大,现跌3%,最新报7062.48点

每日经济新闻
2026-05-14 21:38:47
广州越秀“电鸡”被拖至百公里外的从化,约三四成车主弃车,代拉、拼单、回收生意火爆

广州越秀“电鸡”被拖至百公里外的从化,约三四成车主弃车,代拉、拼单、回收生意火爆

极目新闻
2026-05-14 12:20:34
美国历代总统访华都爱吃些啥?这几道菜,让他们放下刀叉拿筷子

美国历代总统访华都爱吃些啥?这几道菜,让他们放下刀叉拿筷子

青烟小先生
2026-05-14 19:26:33
女子称关闭支付功能后,180多万元凌晨莫名通过支付宝捐给慈善机构;支付宝:账密是用户透露出去的

女子称关闭支付功能后,180多万元凌晨莫名通过支付宝捐给慈善机构;支付宝:账密是用户透露出去的

大风新闻
2026-05-14 18:15:39
为了夏天不穿bra,竟然做……这种事情!

为了夏天不穿bra,竟然做……这种事情!

超级数学建模
2026-05-13 22:36:28
武功山景区遭“臭屁虫”围攻?有游客调侃“张嘴能吃饱”,景区提醒:可自备防虫药物

武功山景区遭“臭屁虫”围攻?有游客调侃“张嘴能吃饱”,景区提醒:可自备防虫药物

潇湘晨报
2026-05-14 17:33:19
晚邮报:阿莱格里与伊布彻底决裂,今夏将告别米兰

晚邮报:阿莱格里与伊布彻底决裂,今夏将告别米兰

懂球帝
2026-05-14 19:33:07
特朗普抵达北京,放弃钓鱼台国宾馆,为何执意下榻四季酒店?

特朗普抵达北京,放弃钓鱼台国宾馆,为何执意下榻四季酒店?

青松解局
2026-05-14 18:34:45
马斯克携幼子现身北京人民大会堂 外国网友:孩子那身新中式简直太棒

马斯克携幼子现身北京人民大会堂 外国网友:孩子那身新中式简直太棒

快科技
2026-05-14 19:00:09
俄军苏57首开记录?乌军预警机刚到手没几天,就被“斩落马下”

俄军苏57首开记录?乌军预警机刚到手没几天,就被“斩落马下”

混沌录
2026-05-13 17:57:22
路透:联想、富士康获准为英伟达H200在中国分销商 联想确认

路透:联想、富士康获准为英伟达H200在中国分销商 联想确认

格隆汇
2026-05-14 14:58:08
男童海底捞奔跑撞上高温红油锅,全身多处烫伤!妈妈:当时夜里11点,就我们一桌,店员应提前避让;店长:孩子猛跑过来,曾多次提醒家长

男童海底捞奔跑撞上高温红油锅,全身多处烫伤!妈妈:当时夜里11点,就我们一桌,店员应提前避让;店长:孩子猛跑过来,曾多次提醒家长

大风新闻
2026-05-14 16:29:22
正式取消!知名985高校:公众进校不用预约了

正式取消!知名985高校:公众进校不用预约了

南方都市报
2026-05-14 13:02:01
独造5球导演大逆转!梅西:我已经为世界杯做好准备

独造5球导演大逆转!梅西:我已经为世界杯做好准备

体坛周报
2026-05-14 12:37:14
普京急眼了

普京急眼了

求实处
2026-05-14 21:52:11
中美关系,有了新定位

中美关系,有了新定位

中国新闻周刊
2026-05-14 16:01:38
世界杯转播权天价谈判破裂,5亿美金赞助打水漂,谁才是输家?

世界杯转播权天价谈判破裂,5亿美金赞助打水漂,谁才是输家?

老特有话说
2026-05-13 21:47:59
2026-05-15 00:15:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3403文章数 11151关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

时尚
手机
健康
公开课
军事航空

白色上衣+彩色下装:今年夏天最火搭配,时髦又减龄!

手机要闻

OPPO ColorOS流体云&小布建议支持美的美居

专家揭秘干细胞回输的安全风险

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版