网易首页 > 网易号 > 正文 申请入驻

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

0
分享至

本文是介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。

Jeff Geerling大佬还开发了名为Beowulf AI Cluster的自动化部署工具集,该工具集基于Ansible平台,可实现在beowulf集群架构上快速部署多种开源AI集群工具,支持CPU、GPU以及混合推理配置。

因为我只关心Max+ 395的性能测试部分(尤其是并行测试部分),所以本篇文章有删改,想看原文的请看最后的Jeff Geerling大佬博客

系统硬件配置

本次评估的硬件配置采用了Framework提供的完整解决方案。每个计算节点包含Framework主板、专用电源模块、Noctua CPU散热器以及1TB WD NVMe固态硬盘。



Framework主板在设计上更接近于单板计算机(SBC)架构,而非传统的插槽式CPU和内存桌面主板设计。该主板采用焊接式APU设计,集成了CPU、NPU(神经处理单元)和iGPU(集成图形处理器)以及系统内存。根据Framework的技术说明,采用焊接式设计而非可更换内存模块(如CAMM标准)的主要原因是为了确保内存时序的精确控制,从而在AI工作负载中实现最优性能表现。

集群基础性能测试

系统组装完成后,进行了全面的性能评估测试。完整的测试数据已在GitHub相关仓库中详细记录,包括Framework Desktop的sbc-reviews完整数据、top500 HPL基准测试结果以及Ollama和LLM基准测试结果。



在环境特性方面,该集群系统表现出优异的静音性能。配备Noctua CPU散热套件的情况下,系统噪音控制在46dBa以下。主板预装的散热器采用相变热界面材料技术,确保从APU裸芯到散热器的高效热传导。散热风扇支持智能调速,在系统空闲时可完全停转。

在功耗特性方面,单个计算节点的功耗表现如下:睡眠状态约2W,空闲状态约11W,满负荷运行时约150W。系统在高负载初期会短暂进入更高的turbo boost频率状态,但在持续满负荷基准测试中会稳定在145-155W功耗范围内。所有功耗测量均在交流电源端进行,测试环境运行Fedora 42操作系统(部分测试使用Fedora Rawhide开发版本)。

网络连接性能测试显示,虽然系统配备Thunderbolt/USB4端口,但实际测试中仅能达到10 Gbps的传输速率。内置以太网控制器支持5 Gbps传输速率,在实际测试中能够稳定达到标称速度。未来通过驱动程序优化或Linux系统调整,有望将Thunderbolt节点间连接速度提升至15-20 Gbps。

在通用计算性能方面,单个计算节点表现出色。运行pts/build-linux-kernel基准测试,单节点能够在不到一分钟的时间内完成Linux内核编译任务。



四节点集群配置下,即使未进行针对Ryzen AI Max+芯片特性的专门优化,运行top500-benchmark测试仍能实现超过1 TFLOP的FP64浮点计算性能。



在能效比方面,虽然CPU效率表现良好,但与Apple M系列芯片仍存在显著差距。在FP64计算能效比方面,其表现与Raspberry Pi 5相当。

GPU加速AI推理性能评估

这是我比较关心的问题,因为毕竟我们买这个都是为了做本地的LLM推理,之所以翻译这篇文章的主要原因是大佬已经调通了并行推理,也就是说我们可以用几台主机横向扩展,这样可以加载更大的模型。

测试过程中发现,部分硬件功能(如内置NPU)仍无法正常工作。虽然AMD在评测期间发布了一些NPU测试示例,但由于时间限制,未能完成完整的验证测试。基于这一现状,建议用户在选购时应基于当前已验证可用的功能进行评估,而非基于未来承诺或规格说明中的潜在功能。

在软件兼容性方面,初期在Fedora 42系统上配置ROCm与Ollama的集成遇到了一些技术障碍。最终通过升级至Fedora Rawhide版本解决了ROCm的兼容性问题,使得Ollama能够正常运行,但其性能表现仍不如直接使用llama.cpp。

单节点配置下,系统能够很好地支持CPU或iGPU推理模式,可选择Vulkan或ROCm作为底层加速框架。性能测试结果显示:



对于集成显卡而言(在完全未使用NPU的情况下),测试获得了令人满意的性能数据。在能效比方面,虽然未能达到Apple芯片的水平,但在AMD消费级芯片中表现最佳。

集群测试阶段为避免网络配置问题的干扰,选择使用内置网络控制器,并配备了NICGIGA 5 Gbps 8端口交换机。这是目前市场上为数不多能够在单一设备中提供多个5 Gbps RJ45端口的网络交换解决方案。

使用Beowulf AI Cluster项目框架,对Exo、llama.cpp RPC和dllama等多种集群工具进行了系统性测试。测试结果显示,Exo项目似乎缺乏持续维护,在Strix Halo支持方面存在长期未解决的问题,最终放弃了该工具的深入测试。llama.cpp RPC在处理小型模型时表现良好,但在大型模型上会采用轮询调度模式,而在处理超大型模型(如DeepSeek R1 Q4_K_M)时会出现段错误异常(相关问题已在GitHub issue中报告)。distributed-llama在支持的模型范围内(包括Llama 3.1 405B)能够在集群环境中稳定运行,但Vulkan支持存在不稳定性,推理过程可能出现异常(如单词无限循环重复),且目前支持的模型种类较为有限。

综合测试结果表明,目前尚无完美的开源AI集群解决方案。

llama.cpp的RPC模式被认为是最具发展潜力的方案。在超大型LLM的轮询调度问题演示中,通过nvtop工具监控GPU使用情况,可以观察到主节点依次将计算任务分配给各个从节点的过程:



理想情况下,llama.cpp应能实现类似HPL在FP64数学计算中的并行化工作负载分配,但这涉及复杂的技术实现挑战。正是由于这些技术难题,RPC功能目前仍被标记为实验性质。

虽然技术社区经常讨论通过组合多台迷你PC构建AI集群的可行性,但实际实施过程远比理论分析复杂。除了网络带宽相对于内存访问速度的巨大劣势外,现有AI集群工具的成熟度仍有待提升。

成本效益分析

从经济角度分析,不包括DeskPi机架、托盘、网络交换机和布线成本,本次测试的集群配置总成本约为8,004美元。

与其他大语言模型推理解决方案的性能成本比较如下:



此前测试的AmpereOne服务器仅使用CPU即可达到4 tokens/s的推理速度,该服务器的采购成本约为12,000美元。

配备512GB内存的M3 Ultra Mac Studio售价接近10,000美元,但其性能表现显著优于测试集群,可达到16 tokens/s的推理速度。

需要说明的是,上述性能比较中Framework集群的0.7 t/s数据基于Llama 3.1 405B模型测试,而其他系统的数据基于DeepSeek R1 671B模型(均采用Q4量化),因此这一比较并非完全等价。

在DeepSeek R1 Q2_K_M模型的集群测试中,使用Vulkan加速框架获得了以下性能数据:



针对ChatGPT新发布的开源模型,在单节点配置下的测试结果如下:

gpt-oss-20b模型测试结果:



gpt-oss-120b模型测试结果:



在集群模式下运行相同模型时,tg128推理性能下降至24 tokens/s

测试结果表明,采用当前最先进的开源AI集群工具进行多机推理时,其性能表现始终不如单机大内存配置。在构建AI推理系统时,应优先考虑垂直扩展策略。集群化部署虽然理论上具有吸引力,但在AI应用场景中面临额外的技术挑战。

虽然开源AI集群工具未来可能达到与其他高性能计算工具相当的成熟度,但在当前技术水平下,要获得更优的集群性能,仍需要专用硬件、高速互连以及大量的系统优化工作。

总结

AI集群技术虽然具有技术价值,但距离主流应用仍有相当距离。Deepseek的671B能抛出26t/s的速度如果自用的话是可以达到忍受的最低限度的。但是我个人感觉395最大问题还是价格,rdna3的魔改rdna3.5,对于游戏向肯定没人买,作为AI产品,内存给的带宽又太少了,而且抠搜的只有96G的显存。这导致大模型推理还是需要并行,但是目前来看AMD的生态还是太弱了,并行智能靠RPC,并且Jeff 大佬的测试中还会出现错误一点都不稳定,这也导致395算是一个鸡肋。不过归根到底还是价格问题,现在价格是13999也就是1万4,其实有这时间折腾RPC并行,我不如买8个V100,虽然硬件麻烦一些,但是只要硬件没毛病,软件直接上手就用了。所以等等党们不要着急,如果这玩意能降到10999,没准那时候并行的方案就稳定了,那就是真香,哈。

我只截取了我感兴趣的部分,大佬原文:

https://avoid.overfit.cn/post/6e2057cb902b4033b3d6cd712f2a8c62

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
游客在三亚支付19晚房费8499元,被民宿单方面取消,三亚通报

游客在三亚支付19晚房费8499元,被民宿单方面取消,三亚通报

爱看头条
2026-02-14 13:24:46
恭喜,35岁刘诗雯正式上任,亮相广州新岗位,张继科祝福

恭喜,35岁刘诗雯正式上任,亮相广州新岗位,张继科祝福

懂球社
2026-02-14 00:56:15
准备差不多了,川普开始说真话,首次说政权更迭是伊朗最好结果

准备差不多了,川普开始说真话,首次说政权更迭是伊朗最好结果

邵旭峰域
2026-02-14 11:24:20
不孝有三,无后为大!重拳打击鼓吹不婚不育歪风,生孩子才是正道

不孝有三,无后为大!重拳打击鼓吹不婚不育歪风,生孩子才是正道

火山詩话
2026-02-14 08:50:17
东方卫视引进《成长的烦恼》,大年初一开播

东方卫视引进《成长的烦恼》,大年初一开播

北青网-北京青年报
2026-02-14 12:18:03
笑不活了!吉林一狗狗拿女主手机下单5000+买灯笼,家里整成夜市

笑不活了!吉林一狗狗拿女主手机下单5000+买灯笼,家里整成夜市

火山詩话
2026-02-14 11:15:54
刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

刚从台湾回来,说点不中听的:台湾的真实面目,可能让你很意外

复转这些年
2026-02-13 23:13:35
释永信倒台后,老乡才敢说实话:当年他想两三万一户买下整个村

释永信倒台后,老乡才敢说实话:当年他想两三万一户买下整个村

每一次点击
2026-02-13 14:46:14
中戏三大佬投案,闫学晶干掉一大片?

中戏三大佬投案,闫学晶干掉一大片?

智识漂流
2026-02-13 20:13:51
00后整顿家庭纠纷有多毒?网友:动不动就断绝亲戚关系,发疯精髓

00后整顿家庭纠纷有多毒?网友:动不动就断绝亲戚关系,发疯精髓

解读热点事件
2026-02-14 00:05:07
丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

IT之家
2026-02-14 15:11:08
湖北精神病院:院长刑拘,市长问责!

湖北精神病院:院长刑拘,市长问责!

梳子姐
2026-02-14 10:13:58
绿皮车的爆火,平台被约谈,打了谁的脸?

绿皮车的爆火,平台被约谈,打了谁的脸?

娱乐洞察点点
2026-02-13 17:31:41
春节不要乱发这种视频!即日起开始严格整治

春节不要乱发这种视频!即日起开始严格整治

吉刻新闻
2026-02-13 17:47:54
最新报告曝美国只剩7个紧密盟友

最新报告曝美国只剩7个紧密盟友

财联社
2026-02-14 15:59:47
春节需求激增!杭州95后女生9天接了100多单,能赚8500元

春节需求激增!杭州95后女生9天接了100多单,能赚8500元

都市快报橙柿互动
2026-02-13 22:49:50
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
斯大林死在地上10小时,满身屎尿没人管:那个让世界害怕的人。

斯大林死在地上10小时,满身屎尿没人管:那个让世界害怕的人。

房产衫哥
2026-02-13 17:22:30
你知道什么是降维打击吗?网友:符合高中学历的认知

你知道什么是降维打击吗?网友:符合高中学历的认知

带你感受人间冷暖
2026-02-13 21:51:11
不可错过!2月14日晚19:00比赛!中央5套CCTV5、CCTV5+直播节目表

不可错过!2月14日晚19:00比赛!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-14 12:52:14
2026-02-14 16:55:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1920文章数 1448关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

乌克兰问题会议鲁比奥临时"放鸽子" 欧洲官员:他疯了

头条要闻

乌克兰问题会议鲁比奥临时"放鸽子" 欧洲官员:他疯了

体育要闻

金博洋:天才少年的奥运终章

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
时尚
房产
本地
数码

教育要闻

五年级复杂解方程,一步一步来

穿上这些鞋拥抱春天

房产要闻

三亚新机场,又传出新消息!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

机情问答:iQOO 15 Ultra和红魔11 Air玩FPS游戏谁更好

无障碍浏览 进入关怀版