网易首页 > 网易号 > 正文 申请入驻

4卡96GB显存暴力输出!英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测:可满足千人同时在线聊天

0
分享至

一、前言:当前最具性价比的96GB/192GB AI推理卡

凭借深耕多年的CUDA护城河,NVIDIA在AI领域一度拥有"定价权",这也让这家公司的GPU及相关产品的售价逐渐脱离普通的消费者。

然而,随着硬件巨头Intel向"全栈AI公司"快速转型,这种绝对垄断正在被打破。

早在2019年,Intel就发布了oneAPI 跨架构编程模型,旨在让代码在 CPU、GPU、NPU 之间通用。这意味着开发者用一套代码即可调用 Intel 的所有算力,降低了迁移成本。


oneAPI还允许开发者将原本仅能NVIDIA CUDA环境下运行的代码,通过其迁移工具(SYCLomatic)快速转换到Intel硬件上,为Arc系列显卡运行主流大模型打下了坚实的软件基础。


去年,Intel发布了基于第二代Xe2架构(Battlemage)的专业级显卡—Intel Arc Pro B60。随后,以Maxsun(铭瑄)、SPARKLE(撼与)、GUNNIR(蓝戟)为代表的核心伙伴正式将其推向全球市场,直指高性能AI推理领域。

Intel Arc Pro B60与此前发布的消费级Intel Arc B580一样,都采用了完整的BMG-G21 GPU 核心, 拥有20个Xe2核心,2560个FP32单元(也可以说是2560个流处理器),20个光追单元和160个XXM AI引擎。


每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能。

在显存方面,Intel Arc Pro B60设计了192bit位宽、19Gbps GDDR6显存,显存带宽高达456GB/s,显存容量则从Intel Arc B580的12GB直接翻倍到了24GB。

与更贵的NVIDIA RTX Pro 2000相比,Intel Arc Pro B60不论是显存容量还是显存带宽都比对手高出了50%。

而在大模型推理中,显存容量决定了模型的参数上限,带宽则决定了吐字速度。

相比之下,NVIDIA同样显存规格的AI加速卡,售价往往是Arc Pro B60的3至4倍。

随着DeepSeek等大规模 MoE 模型爆发的,Intel Arc Pro B60成为了目前市面上构建 96GB(4卡) 到 192GB(8卡)超大显存池最具性价比的方案。


此次我们收到了来自于长城的世恒X-AIGC工作站,这台主机搭载了Intel Xeon w5-3435X处理器、256GB(4x64GB)DDR5 ECC 6400MHz内存、2600W金牌电源以及4张Intel Arc Pro B60 24GB显卡,共计96GB显存。

二、英特尔锐炫Pro B60和长城世恒X-AIGC工作站图赏


长城世恒X图形工作站包含4张Arc Pro B60显卡,不过为了运输安全,发货时,显卡会单独包装,并不会直接安装在主机里面。


Arc Pro B60 24GB公版显卡正面照,双槽厚度,配备一个涡轮风扇。


显卡背面有全尺寸的金属背板,大量的片式聚合物电容也放在背面。


3个DP 2.1和一个HDMI 2.1接口。


2个8Pin供电接口放在了显卡尾端。


长城世恒X图形工作站。



超大的水冷头与水泵采用了分离设计,水泵在其中一根水冷管上。




将4张Arc Pro B60安装进去。


长城世恒X图形工作站与4张Arc Pro B60合体。

三、GPT-OSS-120B MXFP4多并发性能测试:能满足千人同时在线聊天

GPT-OSS-120B是OpenAI首个开源的千亿级参数模型,总参数 1170 亿 (117B),被认为是测试多卡并联(Multi-GPU Parallelism)和分布式计算性能的标杆。

我们将GPT-OSS-120B模型下载至容器的llmmodels目录下,并开启vLLM OpenAI API服务,具体参数如下:


由于120b占用显卡超过66GB,只能4卡并联进行测试,推理精度bfloat16,单次批处理的最大Token总数为 8192,最大上下文长度(Token 数)为 3000,GPU 显存利用率上限为 90%(预留10%给系统),使用MXFP4(混合精度 FP4)进行量化压缩。


vLLM OpenAI API 服务已经成功启动,下面单开一个窗口进行测试。


vLLM版本是最新的0.5.0,无法使用过去的benchmark_serving.py脚本进行测试,因此我们直接使用vllm bench serve命令,分别测试并发数1,10,20,30,40,50,60,70,80,90,100时的AI性能。


这是并发数为1的测试成绩日志,请求成功率 100%,在处理 120B 这种超大规模模型时,100 个请求全部成功且无一报错,说明4卡 Arc Pro B60 + MXFP4运行测试时非常稳定。

TTFT (首字延迟)仅为91.37ms,说明Arc Pro B60预填充(Prefill)阶段的爆发力极强。

平均 ITL (逐词延迟) 为 32.01 ms,输出吞吐量则为184tok/s。

下面是并发数从1,10,20,30,40,50,60,70,80,90,100的性能变化。


当并发数从1~10时: 系统的吞吐量呈现指数级增长,从 184 飙升至 613 tok/s。

不过并发数达到60之后,吞吐量为701 tok/s,基本上已经达到了这套系统的极限,即便请求数增加到100之后,总吞吐量也就增加了1%左右。


整个测试期间,ITL (逐词延迟)稳定得出奇,在达到并发 30 后,ITL 甚至随着并发增加而轻微下降。也就是说在高负载下,计算核心被填充得更满,单步推理的效率反而由于批处理效应而略微提升。


TTFT (首字延迟)震动比较剧烈,并发数为1时仅有91ms,并发数20时为241ns,并发数100时已经到了1344ms。

对于大多数用户而言,10 tok/s即可拥有丝滑的访问体验,根据长城世恒X图形工作站700tok/s的极限性能计算,它可以承受70个用户同时请求回答。

再按1:15的活跃比计算,这台工作站可以支持1000人同时在线聊天。

四、Llama-3.1-8B测试:比同价位RTX Pro 2000 16GB要快50%

1、Llama-3.1-8B

Llama-3.1-8B的显存需求只有7GB左右,因此不仅可以对Arc Pro B60 24GB进行单卡、双卡、4卡测试,我们还能测试桌面版RTX 5060 Ti 16GB的推理性能并与之进行对比!


vLLM 0.5.0 正式建立了对 Intel Arc GPU的原生支持,不再是以往那种简单的代码迁移,而是针对 Intel 的计算单元架构做了适配:

在并发数下,RTX 5060 Ti 16GB的性能略胜于单卡Arc Pro B60 24GB,但随着并发数的提升,Arc Pro B60 24GB随着并发数的提升,Arc Pro B60 24GB凭借大显存的优势开始逆袭,并发数90时,可以领先RTX 5060 Ti 16GB约10%左右。

4张Arc Pro B60 24GB在低并发数时性能优势并不明显,但随着并发数的提升,特别是达到100并发后,4张Arc Pro B60 24GB的性能几乎是单卡的4倍。

下面将精度降为FP8,重复上面的测试,但将N卡换成RTX Pro 2000。


与同价位的NVIDIA RTX Pro 2000 16GB相比,Arc Pro B60 24GB几乎展现出了碾压性优势。

同样是4卡并行进行运算,4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要强了50%左右,在并发数为100的情况下,凭借96GB大显存,Intel的领先幅度甚至达到了65%。

五、小结:用入门级N卡的价钱 买了接近旗舰级N卡的显存容量和推理性能

凭借CUDA生态的支持,NVIDIA的GPU在特定的生产力与AI方面的确有无可比拟的性能优势。

但是在大模型时代,显存即正义。

96GB显存意味着你可以本地运行参数量更大的模型,比如千亿级参数GPT-OSS-120B、LLaMA-3-130B对于4卡Arc Pro B60 24GB完全不是问题。

同样价位的NVIDIA RTX Pro 2000 16GB,4卡合计64GB显存,这是一个相对尴尬的显存容量,只能运行70B模型。在面对千亿级模型时必须极致量化压缩显存,且仅支持短上下文低负载推理,完全无法支持训练和微调。


而在性能方面,Arc Pro B60 24GB几乎展现出了碾压性优势。

同样是4卡并行运算(Llama-3.1-8B-Instruct FP8),4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要强了50%左右,在并发数为100的情况下,凭借96GB大显存,高负载(Batch 100)下,Intel 方案达到了 2110 Tokens/s,而同样价位的NVIDIA方案仅为 1279 Tokens/s。

Intel的领先幅度超过了65%。

在运行1200亿参数的GPT-OSS-120B时,Arc Pro B60 24GB在预填充(Prefill)阶段展现出了极强的爆发力,并发数为1的时候,Mean TFT (首字延迟)仅为91.37ms。

当并发数达到60之后,4张Arc Pro B60 24GB的吞吐量超过了701 tok/s,能满足千人同时在线聊天。

对于想要组建高性能本地 LLM 推理站的企业而言,5000元的Arc Pro B60 24GB显然是更具性价比的选择。

要知道NVIDIA类型算力的24GB专业卡,其售价几乎是Arc Pro B60 24GB的4倍左右。

很简单的结论:Arc Pro B60 24GB能让用户以入门级N卡的价钱,买了接近旗舰级N卡的显存容量和推理性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“乌克兰人厌倦了战争”:匈牙利外长抨击乌克兰强制征兵事件

“乌克兰人厌倦了战争”:匈牙利外长抨击乌克兰强制征兵事件

Ck的蜜糖
2026-02-10 17:57:28
爆冷!纽卡成签下国米巨星最大热门,2600 万镑拿下

爆冷!纽卡成签下国米巨星最大热门,2600 万镑拿下

奶盖熊本熊
2026-02-10 07:42:47
中国女网大爆发:2-1 2-0 2金花晋级 郑钦文王者归来+16强稳了?

中国女网大爆发:2-1 2-0 2金花晋级 郑钦文王者归来+16强稳了?

篮球看比赛
2026-02-10 13:18:54
事发上海!儿媳被疑出轨要打胎,公公转650万购房款安抚,事后又将小夫妻告上法庭……

事发上海!儿媳被疑出轨要打胎,公公转650万购房款安抚,事后又将小夫妻告上法庭……

环球网资讯
2026-02-10 15:13:04
高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

老谢谈史
2025-11-22 17:02:37
难怪高市搞事,原来中国历史上最大的错误就是:总习惯性低估日本

难怪高市搞事,原来中国历史上最大的错误就是:总习惯性低估日本

梦史
2026-01-21 19:05:59
上海人赢麻了!2026年这5条地铁开通,沿线居民身价要暴涨?

上海人赢麻了!2026年这5条地铁开通,沿线居民身价要暴涨?

白浅娱乐聊
2026-02-10 10:49:05
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
退休夫妇花10万“邮轮养老”:船上住15年,包吃包打扫,环游世界

退休夫妇花10万“邮轮养老”:船上住15年,包吃包打扫,环游世界

华人星光
2026-02-10 13:39:28
雨果排名反超林诗栋,张本智和排名上升,向鹏排名反超梁靖崑

雨果排名反超林诗栋,张本智和排名上升,向鹏排名反超梁靖崑

子水体娱
2026-02-09 16:38:18
高市早苗高兴了不到1天,一连迎来3大噩耗,美俄都没有对她客气

高市早苗高兴了不到1天,一连迎来3大噩耗,美俄都没有对她客气

纪中百大事
2026-02-10 17:25:21
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

小娱乐悠悠
2026-02-09 08:01:57
太反常了!中国人忙着过年,激动的却是外国人!

太反常了!中国人忙着过年,激动的却是外国人!

安安说
2026-02-10 12:01:05
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
日经225股价涨幅扩大,最新上涨2.6%

日经225股价涨幅扩大,最新上涨2.6%

每日经济新闻
2026-02-10 09:31:08
马英九:大陆武统,我不接受。赖清德:如果统一,我们会拼命保护

马英九:大陆武统,我不接受。赖清德:如果统一,我们会拼命保护

南权先生
2026-01-21 15:45:43
俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

俄罗斯出口石油搞双标,卖给印度35,卖给中国80,这到底是忘恩负义,还是有别的隐情?

史海孤雁
2026-02-02 17:06:22
超越马英九,盖过洪秀柱,他才是台湾蓝营内最坚定的统派人物

超越马英九,盖过洪秀柱,他才是台湾蓝营内最坚定的统派人物

墨兰史书
2026-02-07 18:25:03
马斯克:五年后SpaceX每年向太空发射的AI算力将超地球AI算力总和

马斯克:五年后SpaceX每年向太空发射的AI算力将超地球AI算力总和

Thurman在昆明
2026-02-08 22:23:11
韩国网友锐评中国风阿迪达斯外套:土死了VS潮死了…

韩国网友锐评中国风阿迪达斯外套:土死了VS潮死了…

奋斗在韩国
2026-02-08 14:05:20
2026-02-10 18:59:02
快科技 incentive-icons
快科技
一起关注每日科技热点
105151文章数 260008关注度
往期回顾 全部

数码要闻

英特尔下一代桌面旗舰平台Nova Lake-S将推,极限功耗达700W

头条要闻

特朗普罕见承认:我犯了个大错

头条要闻

特朗普罕见承认:我犯了个大错

体育要闻

NBA上演全武行,超大冲突4人驱逐!

娱乐要闻

全红婵官宣喜讯,杂志首秀太惊艳

财经要闻

雀巢中国近千经销商的“追债记”

科技要闻

Seedance刷屏:网友们玩疯 影视圈瑟瑟发抖

汽车要闻

应用于190KW四驱Ultra版 方程豹钛7搭载天神之眼5.0

态度原创

亲子
数码
房产
公开课
军事航空

亲子要闻

放不下孩子上学的执念和恐惧?只需做到这一点就够了!

数码要闻

Anker安克在欧洲推soundcore Nebula X1 Pro 4K投影仪,可推着走

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以军持续在约旦河西岸多地发动突袭

无障碍浏览 进入关怀版