网易首页 > 网易号 > 正文 申请入驻

苹果英伟达组了台248GB显存的怪物,10G网线拖后腿了

0
分享至


把一台Mac Studio和一台NVIDIA DGX Spark用网线直连,能拼出一台248GB显存的分布式AI工作站。这个数字听着像科幻片道具——足够塞下100B参数的模型,还是带量化那种。

但问题很现实: heterogeneous GPU(异构图形处理器)+ 10GbE网络,这套组合真能跑起来吗?还是只是工程师的自嗨?

实测数据先摆出来。作者用CAT6A网线直连两台机器,测得吞吐量9.41 Gbps,接近理论上限。WiFi留给日常上网,这根线专门伺候模型推理。没有交换机,没有路由器,两根网线直接对插——这是局域网里能想到的最干净拓扑。

两套方案,两种命运

第一轮用的是Exo,一个支持MLX跨Metal和CUDA后端的分布式推理框架。作者成功让128GB的MiniMax M2.5模型横跨两台机器,却在启动环节卡死:mx.distributed.init(backend="ring")在CUDA后端上无限挂起。MLX 0.31.1版本的CUDA ring实现根本还没跑通,连单节点ring初始化都能在DGX上挂掉。

作者顺手修了选举不稳定、边缘震荡、模型路径匹配、Linux网卡检测等一堆bug,还提交了一个P2P模型分发PR。但核心路径被堵死了——得等苹果把CUDA ring支持补进MLX。


第二轮换llama.cpp的RPC后端。这条路更务实:不要求两端跑同样的ML框架,DGX只暴露原始算力,Mac Studio当大脑,按需把层卸载到远程节点。

启动命令行很朴素。DGX端跑rpc-server,Mac端跑llama-server带--rpc参数。模型文件只存在Mac上,llama.cpp自己决定怎么切分层、怎么分配显存。两台机器用同一份commit(b0f0dd3e5)编译,各自带自己的GPU后端。

速度拆解:预填充起飞,生成环节翻车

预填充(prefill)环节,RPC确实有用。DGX的Blackwell张量核心加速矩阵乘法,7B模型的预填充速度提升到4.2倍。72B大模型也有小幅增益——输入处理阶段,算力就是正义。

但token生成(decode)环节,网线成了瓶颈。每生成一个token,KV缓存状态要往返同步一次。10Gbps带宽下,每层增加约0.2ms延迟。72B模型80层,单token就要16ms网络开销——直接把生成速度砍半。

具体数字:72B模型本地跑11 tok/s,走RPC掉到6 tok/s。模型越小,RPC overhead占比越高,亏得越惨。


什么场景能回本?

这套配置的真正价值在"模型塞不下"的临界点。100B+参数、128GB量化模型,单台机器根本加载不了,RPC再慢也是唯一解。作者把它比作"用慢车运超大件"——慢,但能运。

另一个隐藏收益是内存带宽叠加。DGX Spark的Blackwell架构和Mac Studio的统一内存,两种内存子系统并行工作,某些层能吃到带宽红利。

但10GbE明显是短板。作者算过账:80层×0.2ms=16ms/token,这还只是单向。如果升级到25GbE或100GbE,网络开销能压到可忽略区间,RPC方案可能全面反超本地。

一个有趣的副产品:这套拓扑证明了异构GPU互联的可行性。苹果和英伟达从未官方支持这种玩法,但llama.cpp的RPC抽象层把差异抹平了。Metal和CUDA在后端各自干活,前端用户无感知。

作者最后提了个开放问题:如果苹果哪天把MLX的CUDA ring修好了,Exo的框架级优化能不能跑赢llama.cpp的通用RPC?现在没人知道答案,因为MLX的CUDA支持还停留在"能编译,跑不起来"的阶段。

那根9.41 Gbps的CAT6A网线,现在还插在桌底下。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣:商鹏飞将访华

官宣:商鹏飞将访华

上观新闻
2026-04-01 17:34:10
“疣猪”倾巢而出:A-10攻击机群正成为美终结伊朗的“终极钝器”

“疣猪”倾巢而出:A-10攻击机群正成为美终结伊朗的“终极钝器”

民间胡扯老哥
2026-03-31 21:52:21
真是没想到,中东打仗的蝴蝶效应,竟扇到了中国猪圈

真是没想到,中东打仗的蝴蝶效应,竟扇到了中国猪圈

悦君兮君不知
2026-04-02 03:31:58
不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

丁丁鲤史纪
2026-04-01 15:47:56
外交部:菲律宾对中国南沙群岛相关岛礁进行所谓命名侵犯中国领土主权

外交部:菲律宾对中国南沙群岛相关岛礁进行所谓命名侵犯中国领土主权

新京报
2026-04-01 16:12:08
前女友称会去看望张雪峰母亲,曾陪张雪峰租房吃苦,更多合影被扒

前女友称会去看望张雪峰母亲,曾陪张雪峰租房吃苦,更多合影被扒

古希腊掌管松饼的神
2026-04-02 11:02:48
环球影城一过山车叕发故障!32人被倒挂高空!近10年至少5起故障

环球影城一过山车叕发故障!32人被倒挂高空!近10年至少5起故障

特种设备安全科普
2026-04-02 11:03:02
童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

童瑶其实挺真实的,明明一直在健身,小腹还是没法完全平坦

小光侃娱乐
2026-04-01 13:15:08
李荣浩承认抄袭日本歌手,单依纯扳回一局!

李荣浩承认抄袭日本歌手,单依纯扳回一局!

八卦疯叔
2026-04-02 11:27:42
不打伊朗了?特朗普通告全世界,战争费由22国承担,朝鲜发出警告

不打伊朗了?特朗普通告全世界,战争费由22国承担,朝鲜发出警告

丁丁鲤史纪
2026-04-01 14:00:22
中美已经谈崩,沉默6天,中国取消电池片出口退税,特朗普赌输了

中美已经谈崩,沉默6天,中国取消电池片出口退税,特朗普赌输了

涵豆说娱
2026-04-02 11:25:48
多名院士研究发现:吃一块桃酥,就等于吃两勺糖,真的假的?

多名院士研究发现:吃一块桃酥,就等于吃两勺糖,真的假的?

蜉蝣说
2026-04-02 09:16:24
国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

国足两战稳中求变,邵佳一的改革从让每个人踢舒服开始

懂球帝
2026-04-02 15:02:14
听懂广东人这20句黑话,在广州深圳混,少走10年弯路

听懂广东人这20句黑话,在广州深圳混,少走10年弯路

椰青美食分享
2026-04-02 14:00:05
4月2日,小米股腰斩了,雷总樱花开了的博文评论区抱怨声连天

4月2日,小米股腰斩了,雷总樱花开了的博文评论区抱怨声连天

卷史
2026-04-02 13:41:40
出大事了,伊朗发起斩首行动,大批美军官被抬走?英法德俄失声

出大事了,伊朗发起斩首行动,大批美军官被抬走?英法德俄失声

霁寒飘雪
2026-04-02 07:19:42
A股,大级别的调整要来了?明天,周五行情分析

A股,大级别的调整要来了?明天,周五行情分析

明心
2026-04-02 15:16:44
韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

韩媒:全红婵小学二年级就去练跳水!基础教育缺失 未来有3种可能

念洲
2026-04-02 09:45:59
连烧30小时!百亿航母成废铁?5700人被扣押,福建舰成全球焦点

连烧30小时!百亿航母成废铁?5700人被扣押,福建舰成全球焦点

小曙说娱
2026-04-02 12:33:45
直20F反潜直升机,央视公开起降,大批量装备,已成定局?

直20F反潜直升机,央视公开起降,大批量装备,已成定局?

万里繁华
2026-04-02 15:27:56
2026-04-02 17:48:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
695文章数 3关注度
往期回顾 全部

数码要闻

格力电器CMO朱磊:格力家用空调坚决不涨价

头条要闻

00后女孩未婚先孕 坐月子期间男方提出"奶粉AA"并拉黑

头条要闻

00后女孩未婚先孕 坐月子期间男方提出"奶粉AA"并拉黑

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

高油价、AI泡沫...谁将压垮美国经济

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

房产
教育
时尚
手机
健康

房产要闻

大反转!海口今年首宗重磅江景地块,拍卖突然终止!

教育要闻

「MiniMax」招人啦!300/天!实习津贴+免费餐食!一对一导师带教

女人有没有品位看看穿搭就知道,这些造型值得借鉴,温柔高级

手机要闻

内存成本压垮中端机!骁龙8E全面退出2000元档:性价比时代终结

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版