英特尔锐炫Pro B70深度测试：AI性能翻倍，王者风范初显|gpu|cpu|大显存|core

分享至

在四月份英特尔专业工作站发布会上，英特尔将旗下最新一代单路极致性能平台至强600系列CPU和英特尔锐炫Pro B70（Intel Arc Pro B70）放在了一起，不仅构成了这个时间内旗下最强AI与创作的工作站平台，也明示了英特尔锐炫Pro B70在AI工作站，乃至整个平台中的重要性。

更重要的是，Arc Pro B70标志着英特尔首次将大显存AI推理作为旗舰独立GPU的绝对优先级，32GB GDDR6，367 TOPS INT8，吃满x16的PCIe 5.0组合，在工作站中打出了一套基于本地化、开放化和高性价比的组合拳。

那么Arc Pro B70在AI领域究竟会有什么样的表现，它是否能帮助英特尔在这场逆势反击的战场中再增添一注砝码？接着此次机会，我们深度探讨了这款GPU的实战细节，也希望能给关注AI工作站的用户们提供一些有用的分享。

向专业领域进发

Arc Pro B70可以理解为Intel Battlemage B-Series的专业系列GPU，基于Xe2架构的 BMG-G31 GPU打造，并且硬件设计目标非常明确，即为现代 AI 推理与专业图形工作站提供大显存、高算力、开放生态的加速平台。

这套硬件设计哲学可以概括为三点：

大帧缓存（Large Framebuffers）：32GB GDDR6显存，面向大模型推理、高分辨率纹理、复杂光追场景；

AI 原生加速：通过第二代XMX（Xe Matrix Extension）矩阵引擎，在本地提供高达 367 TOPS INT8的推理算力；

开放与扩展性：基于PCIe 5.0 x16接口，支持多卡扩展，官方验证平台支持最多8 卡，从发布会现场的OEM沟通来看，扩展到16卡，即单一平台工作站最高做到16x32GB=512GB的显存。

构建出这套硬件哲学的底层源自英特尔Xe2 GPU架构。Xe2并非简单的IP迭代，而是一次面向利用率、负载均衡与软硬件协同的系统性重构。包括更高利用率，通过执行宽度升级与缓存重构，减少计算单元在等待数据时的空闲周期。改进工作负载分布，在图形与 AI 计算两条并行的负载路径上，优化任务在核心间的分配逻辑。以及无缝软硬件握手，指令调度、内存管理与驱动层之间降低延迟，提升从 API 调用到硅片执行的转化效率。

Xe2同时服务于内置Built-in与独立Discrete两种实现形态，这意味着其ISA与微架构设计必须具备足够的灵活性，既能适配笔记本集成GPU的功耗约束，也能在桌面、工作站独立显卡上释放完整性能。Arc Pro B70作为满血独立版本，正是这一架构在TGP 160W到290W的功耗下完整展开。

Xe2的基础是第二代Xe-Core，即基础计算构建块（Foundational Compute Building Block），它直接实现Xe ISA，并针对图形与AI计算两类负载进行市场级优化。具备SIMD16的向量执行宽度，每核心8个Xe Vector Engines（XVE）单元，能够更好的增强并行线程处理能力。同时第二代Xe-Core共享缓存（L1/SLM）增加到了256KB，进一步降低显存访问频次，服务重负载工作站场景。

其中，从第一代Xe-Core的SIMD8升级到第二代Xe-Core的SIMD16，意味着每个 XVE 在单一时钟周期内可以处理更宽的向量寄存器。对于AI推理中常见的矩阵-向量乘法与图形着色器中的批量数据操作，SIMD16能显著减少指令发射次数，降低前端调度压力，同时提升后端执行单元的占用率。这也是英特尔宣传每个Xe-Core性能最高提升70%的重要原因之一。

XMX（Xe Matrix Extension）是Xe2在AI负载上实现数量级加速的专用硬件单元，其设计体现了异构计算在GPU内部的微观化。Xe2中，每个Xe Vector Engine均配对一颗XMX引擎，形成向量、矩阵双发管线。这种紧耦合设计意味着在AI工作负载中，激活函数、归一化等向量运算与线性层、注意力投影等矩阵运算可以在同一执行端口内交替或并行完成，减少跨单元数据搬运。

全面进军专业市场

一直以来工作站都是 Intel 的传统优势领域，不过在过去 Intel 在这个领域的主要优势是 CPU 和系统平台，但是随着今年进军独立 GPU 市场，Intel 的专业卡也开始渐露头角，例如去年推出的 B60 系列，凭借每 GPU 24 GB 显存的配置、稳定的性能表现以及专业多媒体处理能力，在这个领域收获了不少好评。

如今，英特尔在这个基础上再接再厉，推出了基于代号 BMG-31 GPU 的全新 Arc Pro B70 专业卡，不仅单 GPU 浮点性能显著提升，而且显存容量也比之前提升了50%，能满足对性能、显存容量更苛刻的专业应用场景。

在工艺层面，BMG-31 GPU采用TSMC N5制程，拥有277亿个晶体管，Die Size 368mm²，公版TBP 230W，AIB可以根据实际需求定制功耗范围，通常在160W到290W之间。

按Arc Pro B70的满配规模推算32 Xe-Cores × 8 XVE/XMX = 256个XMX引擎，整颗GPU的峰值矩阵算力达到367 TOPS INT8 Dense。相比传统GPU中依赖通用乘加单元MAC进行矩阵运算的方式，XMX在INT8推理场景下可提供最高16倍的计算能力。

XMX不仅服务于INT8，还支持TF32、BF16、FP16、INT4、INT2。这种梯度化的精度覆盖使Arc Pro B70能够适配从高精度微调BF16到极限量化压缩INT4、INT2的全谱系AI模型部署需求，而无需回退到软件模拟。

除此之外，Xe2集成了改进版的第二代RTU（Ray Tracing Unit），官方标称吞吐量最高可达前代的2倍。虽然Arc Pro B70的核心定位是AI推理，但英特尔选择保留并强化光追单元，使其在专业可视化，如复杂 CAD 模型的实时光追渲染、路径追踪预览中仍具备完整的图形管线能力，而非一张纯粹的AI计算卡。

回到构建Arc Pro B70的BMG-G31 GPU本身。BMG-G31采用Render Slice作为中层组织单元，满配包含8个Render Slices，每个Slice针对 DirectX 12 Ultimate特性集优化。按32个Xe-Cores与8 Slices的配比推算，每个Slice内部集成4个Xe-Core，形成“Slice → Xe-core → XVE/XMX”的三级计算层级。

这样设计好处在于，可以方便英特尔在不同SKU间灵活屏蔽Slice，衍生出不同核心数的产品。同时Slice内部可共享局部资源，如光栅化、图元装配单元，减少跨Slice通信。另外在轻负载图形场景下，可关闭部分Slice实现精细化的功耗门控。

这里给出一张BMG-G31在Arc Pro B70满配硬件表格作为参考：

可以看到，XVE、XMX、TMU的数量均为256，呈现1:1:1的配比关系，这意味着在纹理密集的AI生成任务，如扩散模型的VAE解码阶段中，采样与计算不会形成明显的资源瓶颈。另外128个ROPs保证了在高分辨率图形输出时的像素填充率，使Arc Pro B70在作为专业显示卡驱动4K/8K显示器时仍具备完整性能。

缓存部分，BMG-G31缓存系统采用两级显性架构，每个Xe-Core配备256KB统一缓存，承担L1数据缓存与线程间共享内存的双重角色。对于32核心的满配芯片，片上 L1/SLM总容量达到8MB。同时全局拥有18MB L2缓存，作为所有Render Slice与显存控制器之间的中央缓冲池。18MB的容量在同类工作站GPU中属于较大配置，对于 AI 推理中重复访问的模型权重与中间激活值具有显著的命中增益。

大L2缓存家宽L1/SLM设计，本质上使用晶体管预算换取对显存带宽的依赖降低，进而缓解608GB/s显存带宽在极端并发负载下的压力。实际上，608GB/s显存带宽已经比试下热议的统一内存实际运行带宽高很多。

608GB/s显存带宽=256-bit位宽 × 19 Gbps速率，BMG-G31使用了全新的GDDR6显存控制器，并配备32GB容量，远超同级别的游戏和专业显卡，直接服务于大语言模型权重驻留与高精度3D场景纹理。同时显卡还在硬件层面对Resizable BAR（基址寄存器重调）提供支持，CPU可通过PCIe地址空间一次性映射GPU的全部32GB显存，而非传统的256MB窗口。并且多卡并联时，Resizable BAR是显存聚合与统一寻址的基础硬件前提。

大显存带宽在 vLLM、PyTorch 等AI推理框架下，大模型权重可直接通过 DMA 高效进出显存，减少拷贝分段与驱动层地址转换开销。多卡并联时，Resizable BAR 是显存聚合与统一寻址的基础硬件前提。

最后，Intel Arc Pro B70具备完整的图形与多媒体输出能力，包括HDMI 2.1和DisplayPort 2.1，支持UHBR 13.5和UHBR 10，最高4屏输出，支持8K@60Hz与 4K@360Hz。以及2 组多格式编解码引擎（MFX），支持H.264、H.265、AV1、VP9的硬件编解码，以及XAVC-H解码。双引擎设计允许并行处理多路视频流，在AI视频生成与专业剪辑工作流中提供硬件级加速。

铭瑄Arc Pro B70：单涡轮释放拉满

这里我们先展示一下测试平台：

主机：联想ThinkStation P7

操作系统：Ubuntu 25.04

Kernel：6.14.0-1011-intel

CPU：Intel Xeon w5-3435X (32) @ 4.600GHz

（物理 16 核，32 线程）L1D-48KB; LII-32KB; L2-2048KB; L3-45MB）。

GPU：铭瑄 Intel Arc Pro B70 32GB *2 TBP 230W

内存：256GB DDR5；四通道 4800MT/s

这次的 LLM 模型测试主要在 Ubuntu 25.04 下进行，因为目前能比较开箱即用的 Intel推理引擎就是 Intel 维护的 llm-scaler 项目（intel/llm-scaler）里的 vLLM 容器，目前测试运行版本为 0.14.0-b8.3，新增支持 Qwen3.5-27B, Qwen3.5-35B-A3B and Qwen3.5-122B-A10B（FP8/INT4 在线量化以及 GPTQ)。

这里着重介绍一下铭瑄Intel Arc Pro B70 32GB，参与测试的两块显卡属于Turbo版本，规格为267×111×38.65 mm，双槽厚度。电源安排在了尾部，接口12V-2×6。显示输出接口包括3×DP 2.1（1×UHBR20 + 2×UHBR10）+ 1×HDMI 2.1a，整卡功耗TBP 290W。

12V-2×6接口是服务器/机架友好设计，避免了顶部供电线在多卡密堆时弯折顶到相邻显卡的问题，给后续的多卡互联提供了理想的物理空间，双卡配置对于联想ThinkStation P7而言是轻而易举的。

散热上，铭瑄表示使用了三重散热设计。仅使用单个涡轮风扇实现离心式鼓风设计，从侧面吸入冷风，直接将热风经挡板排出机箱外部，这种风道的核心优势是多卡并联时不会把热量甩给相邻显卡或机箱内部，对于四卡以上集群尤为重要。

铭瑄Intel Arc Pro B70 32GB还是用了更大面积的VC均热板，能将GPU核心的热量更均匀地扩散到整个散热鳍片阵列，避免涡轮风扇常见的核心热点问题。同时全尺寸金属背板可以防止PCB在长期竖插和高负载下形变，并辅助背部显存和供电模块的散热。

现在让我们进入测试环节。

LLM-Scaler 使用教程

我这里假设大家已经安装好 Ubuntu 25.04 以及 Docker，搞定后我们首先要搭建“Bare Metal Environment（BME）”的组件，下载链接在 LLM-Scaler 的官方教程页面就能找到：

llm-scaler/vllm/README.md at main · intel/llm-scaler

点击上图中红色框框就能下载 Bare Metal Environment，它里面含有运行所需的 Linux Kernel、GPU 驱动、工具、系统配置更新。

这个东西是操作系统相依的，例如目前的提供的版本里就只含有 Ubuntu 25.04 和 25.10。

我曾经尝试过在 Ubuntu 26.04 正式版上安装 BME，会提示找不到对应的文件夹，因此目前在 Ubuntu 26.04 上暂时只能使用 Mesa 驱动提供的 Vulkan 和 OpenCL 支持（需要再安装 Intel Neo 驱动），不具备 PyTorch 硬件加速支持所需的套件，需要后续新版套件发布后才行。

当然，我也的确看到过有人成功在 Ubuntu 26.04 使用，应该是手动能力比较强解决了，感兴趣的大家可以关注这里：Getting Started on Intel GPU — PyTorch 2.11 documentation。

下载好 BME 后，执行以下命令展开安装包：

tar xf multi-arc-bmg-offline-installer-26.5.6.1.tar.xzcd multi-arc-bmg-offline-installer-26.5.6.1sudo ./installer.sh

完成安装后，退出 Ubuntu 然后重新登录或者是直接重启，然后执行以下命令：

xpu-smi discovery

如果看到上面这样的提示，就表示 BME 已经安装就绪。

完成 BME 安装后，就要部署 AI 推理服务，我们这里使用 LLM-Scaler 提供 Docker 容器，因为容器内都是搭建好的环境，这样可以节省构建会遇到的大量相依性麻烦。

我们执行下面的命令下载容器镜像：

docker pull intel/llm-scaler-vllm:0.14.0-b8.1

0.14.0-b8.1 是版本号，具体的大家可以到这里查找：

llm-scaler/Releases.md at main · intel/llm-scaler

题外话。上面的 dockers 命令默认是需要加上 sudo 的，但是如果只是个人使用的话，可以用下面的命令跳过 sudo：

sudo usermod -aG docker $USER && newgrp dockersudo usermod -aG render $USERsudo usermod -aG video $USER

接下来我们就可以构建容器：

docker run -td \--privileged \--net=host \--device=/dev/dri \--name=lsv-container \-v /home/intel/LLM:/llm/models/ \-e no_proxy=localhost,127.0.0.1 \-e http_proxy=$http_proxy \-e https_proxy=$https_proxy \--shm-size="32g" \--entrypoint /bin/bash \intel/llm-scaler-vllm:0.14.0-b8.1

如果一切正常的话，我们就可以用下面的命令进入容器：

Docker exec -it lsv-container bash

然后在里面执行：

xpu-smi discovery

正常的话应该能看到 Intel GPU 能用了：

xpu-smi 类似于 nvidia 的 nvidia-smi，也能提供状态监控等功能，不过使用上有点麻烦，如果想简单一点的话，可以试试看 nvtop，也能支持 Intel GPU，此外还有 btop、hw-smi 等。

例如 hw-smi:

btop（目前可能需要专门的 Intel GPU 分支版）：

xpu-smi 内置了若干个测试项目，可以让我们快速了解 GPU 的性能特性：

xpu-smi benchmark

Intel Arc Pro B60：

Intel Arc Pro B70：

从 xpu-smi 的测试可以看到，B70 的实测单精度性能为 22.6 TFLOPS（快 87%），4K h.265 转码速度高达每秒 165 帧（快 5 帧），PCIE 总线速度为 55.6 GiB/s，压测功耗为 210 瓦（增加 63%）。

Deepseek-R1-Distill-Qwen-7B

单卡vLLM 启动命令：

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 VLLM_WORKER_MULTIPROC_METHOD=spawn vllm serve /llm/models/DeepSeek-R1-Distill-Qwen-7B \--served-model-name DeepSeek-R1-Distill-Qwen-7B \--dtype=float16 \--enforce-eager \--port 8000 \--host 0.0.0.0 \--trust-remote-code \--disable-sliding-window \--gpu-memory-util=0.9 \--no-enable-prefix-caching \--max-num-batched-tokens=8192 \--disable-log-requests \--max-model-len=16384 \--enable-auto-tool-choice \--tool-call-parser deepseek_v32 \--block-size 64 \--quantization fp8

我这里使用了 tool-eval-bench 来测试。

tool-eval-bench 用来测试模型在智能体场景下调用“工具”（即外部 API 或功能接口）的能力，这些测试场景可以视作不同的工作流，模型需要在其中完成正确的工具选择、参数传递、链式调用和错误处理，最终通过评分来评估其运行质量。

评分的维度包括了是否调用了正确的工具、传入的传输是否完整准确、在涉及多步工具的时候是否能正确衔接、在出现异常或者杂噪的时候能否稳健处理并避免越界。

tool-eval-bench 不仅能评估工具调用的效果，它还自带了一个性能基准测试并且支持调用外部的 llama-benchy 性能测试工具，内置的性能测试支持 MTP（多 Token 预测）性能测试，不过目前 vLLM 下的 Intel MTP 功能还在完善中，得留待以后体验了。

透过 tool-eval-bench 我们可以了解测试模型在智能体场景下的效果和速度性能表现。

完整的 tool-eval-bench 包含了 69 和工具调用测试，我们在这里选择 –short 模式，只测试其中的 15 项。

从测试结果来看，在单卡模式下，Intel Arc Pro B70 能在无上下文、单请求的时候实现 62.8 Tokens/s，上下文达到 8192 Tokens 的时候，依然能提供 60.2 Tokens/s，在四用户请求的时候提供了 180 Toksens/s（无上下文）和 86.4 Tokens/s（8192 Tokens 上下文）。

DeepSeek-R1-Distill-Qwen-7B 的智能体应用场景表现比较一般在 TC-15（十五项工具调用）测试中，100 分满分只拿下了 23 分。

接下来看看启用 -tp=2 后双卡并行加速的情况：

启用 -tp=2 后，无上下文、单请求的时候实现 94 Tokens/s，上下文达到 8192 Tokens 的时候，性能达到 98.4 Tokens/s，在四用户请求的时候提供了 256.3 Toksens/s（无上下文）和 110.8 Tokens/s（8192 Tokens 上下文），双卡加速性能提升分厂明显。

不过 DeepSeek-R1-Distill-Qwen-7B 的智能体应用场景表现较之前单卡的时候略有下降，跌到了 20 分。主要是 TC-03 跑不通了。

接下来看看其他模型上的表现。

Qwen3.5-9B

Qwen 3.5 是千问 3.5 系列小尺寸系列（0.8B、2.5B、4B、9B）里的最大的，支持文本和视频，特性方面要比一年前的 Deepseek Dstill Qwen 7B 好很多。

测试的时候我使用了 fp8 在线量化，在 48K 上下文的时候内存开销是 13.13 GB，余下的空间还能作为 KV Cache 存放 9 倍设定的上下文长度。

单卡模式

在单卡模式下，Intel Arc Pro B70 录得了 31.3 Tokens/s 的单请求/无上下文性能，在四请求下性能为 95.1 Tokens/s，在上下文 8192 的是，则分别是 30.8 Tokens/s 和 39 token/s。

在工具调用能力方面，TC15（15 项）取得了 97 分的结果，远优于 Deepseek Dstill Qwen 7B 的情况，虽然速度要慢些，但是配合智能体时的实际使用体验要好上许多。

双卡模式（TP2）

vllm serve /llm/models/Qwen3.5-9B \--served-model-name Qwen3.5-9B \--enforce-eager \--port 8000 \--host 0.0.0.0 \--trust-remote-code \--disable-sliding-window \--gpu-memory-util=0.90 \--block-size 32 \--max-model-len=16384 \--max-num-batched-tokens=8192 \--reasoning-parser qwen3 \--enable-auto-tool-choice \--tool-call-parser qwen3_xml \--language-model-only \--quantization fp8 \-tp 2

-tp 2 能将模型拆开放在不同的显卡上，单卡的显存开销要比单卡的时候低不少：

可以看到，每张卡的显存开销也就是 7.6 GB，可分配存放上下文的 KV Cache 可以达到 25.6 倍设定的 48K 上下文。

双卡模式的时候，TC15 工具调用录得了 100 分满分，比单卡的时候 97 分表现更好一点。

在性能方面，由于我们这里使用的并行方式 -tp 2，也就是将模型张量拆开放到两片上，存在 PCIE 总线交换约束，所以单事务请求的性能为 27 Tokens/s，比单卡 31 Tokens/s低，但是在 8129 上下文四路请求的时候，性能达到了 53 Tokens/s，比单卡时候快了 38%。

另一种双卡模式是 -dp 2，也就是两张卡都加载完整的模型，这样的好处是 PCIE 数据交换压力降低了不少，性能也会更进一步：

无上下文时单路请求的时候和单卡差不多，而在 8192 上下文+4路并发的时候，性能达到了 66.7 Token/s，比单卡快了 71%。

-dp 2 是的 TC15 测试结果和单卡类似，都是 97 分。

Qwen3.6-35B-A3B-Q4_K_XL

所以我尝试了一下 llama.cpp SYCL 来跑相关的量化模型，像 Qwen3.6-35B-A3B-Q4_K_XL 这种 4-bit 量化模型就能轻松跑了起来：

build/bin/llama-server -m ~/LLM/gguf/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -c 49152 -ngl 99 --host 0.0.0.0 -sm layer --port 8000

llama.cpp 目前有多种 GPU 并行加速方式，例如 -sm layer、-sm row 以及和 vLLM -tp 类似的 -sm tensor，就目前而言最快的还是 -sm layer，而且这个模式的模型加载速度也远远快于 -sm tensor。

模型在代表智能体使用效果的 TC15 工具调用测试满分，具有很高的使用价值。

性能方面，Intel Arc Pro B70 在这里录得了每秒 69 Tokens 的无上下文性能，在启用 8192 Tokens 上下文的时候能达到每秒 66 tokens 的性能。

Llama.cpp 的多并发性能一直表现一般，这也使得它目前主要适合于单用户场景。

Qwen3.6-27B-Q4_K_M

Qwen3.6-27B 是稠密模型，内存带宽压力是 Qwen 3.6-35B-A3B 9倍，不过就坊间的反映来说，27B 的效果要明显优于 35B，从 TC15 工具调用测试来看，也是轻松满分。

从性能测试结果来看，Intel Arc Pro B70*2 能在这个测试中实现每秒 20 Tokens/s 的速度，速度方面应该还有提升空间。

我也有尝试启用 llama.cpp 的预测推理（--spec-type ngram-mod --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48），结果如下：

这里的 filler 就是日常的对话、code 是编程、structured 就是处理诸如 xml、json 等结构化文件。

测试的数据并不是很稳定，一般来说一开始的时候性能较低、丢弃率也相对高些（最高丢弃率为 56.%，发生在 filler 类居多），之后越跑表现会越好的样子。

我们这里给出的是第四次运行后的结果，此时的数据个第三次运行的情况一样，每秒有效生成在 40-53 Tokens，只在 filler发生两次 17% 的抛弃。

跑 Qwen 3.6 27B 能有这个速度表现非常让人满意了。

当然，MTP 的成功率其实受到很多因素影响，例如前面的 Qwen 3.6 35B A3B 的采纳率相对更低一些。

ComfyUI

export DOCKER_IMAGE=intel/llm-scaler-omni:0.1.0-b7export CONTAINER_NAME=comfyuiexport MODEL_DIR=/home/intel/Downloads/ComfyUI/modelsexport COMFYUI_MODEL_DIR=/home/intel/Downloads/ComfyUI/modelsdocker run -itd \--privileged \--net=host \--device=/dev/dri \-e no_proxy=localhost,127.0.0.1 \--name=$CONTAINER_NAME \-v $MODEL_DIR:/llm/models/ \-v $COMFYUI_MODEL_DIR:/llm/ComfyUI/models \--shm-size="64g" \--entrypoint=/bin/bash \$DOCKER_IMAGE

目前 LLM-Scaler-Omni 镜像里的 ComfyUI 版本比较旧（例如不支持 Flux.2 Klein 9B KV 模型所需要的 KV Cache 节点），不过优点是预装好了多 GPU 节点并且速度可能更快（以 SeedVR2 为例大约快 5%–），但是如果你是单卡用户或者是希望自己掌控，可以参考一下我下面针对 Intel XE GPU 的本机安装 ComfyUI 步骤。

本机安装 ComfyUI 步骤：

安装 python 配置环境工具 pyenv：

git clone https://github.com/pyenv/pyenv-virtualenv.git ~/.pyenv/plugins/pyenv-virtualenvecho 'eval "$(pyenv virtualenv-init -)"' >> ~/.bashrcsource ~/.bashrc

构建独立配置环境

pyenv virtualenv 3.12.13 python-312

这会在 ~/.pyenv/versions/python-312 下创建一个对应 Python 3.12 的配置环境。

然后我们安装 ComfyUI 并将 Python 3.12 环境套给它：

git clonehttps://github.com/comfyanonymous/ComfyUIcd ~/Downloads/ComfyUIpyenv local python-312

此时 ComfyUI 目录下会生成 .python-version 文件，内容是 python-312。

验证：

python --version

输出应该是：

Python 3.12.13

同时提示符会显示：

(python-312) intel@intel:~/Downloads/py312$

在该目录里安装 torch for intel GPU

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu

安装依赖组件

pip install -r requirements.txt

安装 Comfy 管理器：

pip install-r manager_requirements.txt

安装 triton（download.pytorch.org/whl/cu80/triton-xpu/）：

pip install https://download-r2.pytorch.org/whl/triton_xpu-3.6.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl

启动命令：

python3 main.py --listen 0.0.0.0 --enable-manager

其中的 --listen 0.0.0.0 是允许网络访问

启动成功后，按 ctrl-c 退出，然后修改ComfyUI/user/__manager/ config.ini 文件，使其允许局域网其他电脑访问的时候安装插件：

security_level = weaknetwork_mode = personal_cloud

之后再次启动 comfyui 就能正常使用了。

启动后应该能看到正确识别到 Intel xpu。

如果识别到是 Intel(R) Graphics [0xe223] 其实也是可以跑的，你也可以在主机和容器内到 Releases · intel/compute-runtime 下载、安装最新的 Intel Compute-runtime，然后就能实现识别为 Intel Arc Pro B70 Graphics。

Flux.2 Kelin 9B KV 图像编辑（换衣服）

我们先试试看

提示词：

Use the original image as the base.

Replace the clothing with the outfit shown in the reference image.

Preserve the model’s original face, identity, and facial features exactly as in the source image.

Keep her body proportions, pose, shoes, accessories, and all other elements unchanged.

Maintain the surrounding environment, background, and lighting exactly as in the original image.

Do not alter or reinterpret any non-clothing details.

第一次运行（冷启动）：17.82 秒

第二次运行：6.75 秒

Qwen 3.6 27B 图片转文本提示词反推

这里我们需要安装能支持 Intel XPU 硬件加速 Qwen 3.6 的 llama-cpp-python 模块：

安装 llama.cpp sycl for intel gpu：# 启动 Intel OpenAPI 环境（你需要先安装 OneAPI 套件）source ~/intel/oneapi/setvars.sh# 安装（构建） llama-cpp-pythonCMAKE_ARGS="-DGGML_SYCL=on -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx" pip install "llama-cpp-python @ git+https://github.com/JamePeng/llama-cpp-python.git"

下载 Qwen 3.6 27B 模型：

在 ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF 目录（如果没有的话，可自己先新建该目录层次，也可以在你自己喜欢的其他位置，仿真后面的文件名位置输入都是要有完整文件路径的）里执行：

aria2c -x 16 -s 16 -o Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf

aria2c -x 16 -s 16 -o mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced/resolve/main/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf

其中 mmproj 模型是多模态投影模型 (multimodal projector)，作用是让大语言模型（比如 Qwen3.6‑27B）能够处理非文本输入，比如图片或视频。

安装 ComfyUI 下支持 Qwen 3.6 多模态反推节点：

在 ComfyUI/custom_nodes 里执行：

git clone https://github.com/KLL535/ComfyUI_Simple_Qwen3-VL-gguf

启动 ComfyUI 后，在模板浏览中找到 ComfyUI_Simple_Qwen3-VL-gguf 的工作流样例，这里面有若干个图片、视频、音频工作流，我选择其中的 test2 工作流，它是一个对输入的两张图片找出差别工作流：

我屏蔽掉该工作流中的第二个图相关的节点，将其改为简化的图片转 Z-Image-Turbo 提示词反推工作流：

上图中的红框里有模型文件路径、模型参数的设置，我设定如下：

"model_path": "/home/intel/Downloads/ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf""mmproj_path": "/home/intel/Downloads/ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf""ctx": 8192"n_batch": 2048"n_ubatch": 512"output_max_tokens": 8192"image_min_tokens": 1024,"image_max_tokens": 2048,"gpu_layers": -1"temperature": 0.7"top_p": 0.80"top_k": 20"min_p": 0.0"presence_penalty": 1.5"repeat_penalty": 1.0"pool_size": 16777216"chat_handler": "qwen35""enable_thinking": false"script": "qwen3vl_run.py""silent": false"verbose": false"debug": true

在这里也可以设置为支持多卡模式，即添加 "split_mode": 1，此时可以观察到两片 B70 的确都在跑了，但是两片卡负载状态一直在彼此起伏，最终速度变化不大。

我这里使用的是 Qwen 3.6B 27B，这是一个稠密模型，没有 MOE。

如果是Qwen 3.6 35B A3B 这类 MOE 模型，此时大家可以添加 "n_cpu_moe": 18，应该能把显存压力降低一些。

蓝色框里选择 Z-Image-Turbo Prompt(v3)。

在工作流运行的时候，能看到 GPU 全速运作，显存开销是 24 GB：

在模型已经加载过（模型冷加载需要额外的 6.5 秒左右）的情况下进行测试：

测试的图片大小是 936x1660，从输出来看，我们的图片反推的推理速度为每秒 13.52 Token。

Wan 2.2 文生图双 GPU 并行加速

Llm-scalar-omni 的 ComfyUI 内置了 raylight 节点，可以支持多卡并行运行，包括 Wan 2.2 等模型都可以实现多卡并行加速：

实测条件如下：

832*480，33 帧，4 步，提示词：

a fox moving quickly in a beautiful winter scenery nature trees mountains daytime tracking camera

首次运行：

单卡：69.03

双卡：78.15

第二次运行：

单卡：35.22

双卡：41.55

从测试结果来看，双卡的速度的确不如单卡快，这其中的原因是节点需要使用 CPU 来拆分、递交任务给 GPU 跑，比单卡需要额外的耗时。

类似的情况在之前跑 Intel Arc Pro B60 的时候也出现过，不过在 4 卡后，速度就能提上来了。

SeedVR2 图片高清放大

SeedVR2 目前需要打补丁后才能启用 Intel GPU 硬件加速：

来源：以后，会有支持interA770显卡的，seedvr2吗？ · Issue #429 · numz/ComfyUI-SeedVR2_VideoUpscalerhttps://github.com/user-attachments/files/24390096/seedvr2_videoupscaler-interA770.zip

打补丁步骤（假设当前目录为 ComfyUI 安装目录）：

cd custom_nodeswget https://github.com/user-attachments/files/24390096/seedvr2_videoupscaler-interA770.zipsudo apt updateunzip seedvr2_videoupscaler-interA770.zipcd seedvr2_videoupscalerpip install -r requirements.txt

输入图片大小 1024x1024，参数设置为：

启用 xpu

encode_tiled: truedecode_tiled: falseattention_mode: spda

输出分辨率: 2048x2048

测试结果是：

第一次运行：20.12 秒

第二次运行：15.67 秒

SeedVR2 视频高清放大

打好补丁后就能让 ComfyUI 正常加载 seedvr2 节点，之后我们打开 seedvr2 视频放大工作流（llm-scaler-omni 容器内的 ComfyUI 内置了该工作流），由于我们的 Intel Arc Pro B70 拥有高达 32GB 显存，所以节点内原本的一些设置可以调整优化，例如关闭掉各种 offload 设置，减少数据交换的耗时，你们按照下图中的红色框框设置就行：

点击运行，工作流就会运行，上图就是运行时 hw-smi 显示的 GPU 状态，可以看到其中一个 Intel Arco Pro B70 已经全速运行中。

测试的视频源是 llm-scaler-omni 内置 ComfyUI 资产库里的阿三头像视频，视频分辨率是 640x360px，45 帧，目标分辨率是 1920x1080px。

使用的放大模型是 seedvr2_ema_3b_fp8_e4m3fn.safetensors。

第一次运行测试耗时是 127.92 秒，每秒 0.35 帧，第二次运行的耗时是 125.11，0.36 帧/s。

Intel Arc Pro B70 在这个SeedVR2 视频放大的主要优势是 32GB 大显存，减少了数据交换，实现了更快的速度以及更大分辨率的支持。

SGL Diffusion + ComfyUI Z-Image Turbo 文生图

Intel Llm-Scaler 项目里的 LLM-Omni 除了内置 ComfyUI 外，还内置了 SGL Diffusion for Intel XE GPU 支持，原理是使用 SGLang 提供 diffusion 模型服务，ComfyUI 透过 SGL Diffusion 节点调用 SGLang 提供的 Diffusion 推理服务，这个技术的好处是能充分利用 SGL Diffusion 的多卡并行推理优势，让 ComfyUI 实现高效图片、视频生成支持，效果比前面提到的 Ray 好很多。

SGL Diiffusion 启动脚本，箭头所指就是设置多少卡：

单卡：

双卡：

测试设置：

提示词：

A young Chinese pretty model with short, wavy black hair and a neutral facial expression stands centered in the frame, holding an assault rifle horizontally across her torso; she wears a fitted red-orange tactical jumpsuit with black harness straps over it, beige fingerless gloves marked “14B,” and has small earpieces clipped to her right sleeve. Her pose is direct and assertive as she gazes forward at the camera while slightly angled toward its left side. The background consists of an unadorned red-orange studio backdrop that blends with her uniform’s hue, eliminating any environmental context or time cues beyond a controlled indoor setting. Lighting originates from front-left, casting soft shadows on her right shoulder and creating even illumination across her face without harsh contrasts; the color temperature is warm yet balanced to highlight skin tones against the monochromatic background. The camera maintains an eye-level viewpoint at medium distance, framing her in a full-body shot that emphasizes both her stance and attire while keeping focus sharply centered on her upper body and weapon grip.

步数：5

分辨率：1024*1024

单卡，Z-image-Turbo 5 的生成速度为：

第一轮： 8.51 秒

第二轮：4.21

双卡：

第一轮： 7.88 秒

第二轮：2.97

可以看到，透过 SGL Diffusion，B70 双卡的速度提升了 30%，效果还是挺明显的。

SGL Diffusion + ComfyUI Kelin-9B-KV 文生图

SGLang 加载 Kelin-9B-KV 模型：

单卡：

双卡：

文生图，测试设置与前面 Z-image-Turbo 一样。

单卡，Kelin-9B-KV 的生成速度为：

第一轮：9.57 秒

第二轮：4.48

双卡，Kelin-9B-KV 的生成速度为：

第一轮：8.51 秒

第二轮：4.14

可以看到，透过 SGL Diffusion，B70 双卡的速度提升了 7.5%，效果是有但是相对 Z-Image-Turbo 没那么明显。

经过深度实测，基于全新Xe2 架构（Battlemage）的 Intel Arc Pro B70 展现出了超越量级的进化。它不仅是 Arc Pro 系列的性能旗舰，更是目前主流AI创作与推理应用中极具竞争力的选择。

1. 32GB 超大显存：彻底解决 AI “显存焦虑”

显存容量的提升是 B70 最核心的优势。相比前代 B60 的 24GB，B70 提升了50% 的显存容量。

长文本支持：在实测中，32GB 显存配合优化后的 llm-scaler 栈，支持高达93K tokens的上下文窗口（以 Llama-3.1-8B 为例）。这在处理超长文档总结或复杂 RAG 任务时，能有效避免“AI 失忆”现象，大幅提升任务连续性。

高压负载：在进行SeedVR2 视频高清放大或Flux.2 图像生成时，大显存允许关闭 Offload 设置，减少数据频繁在内存与显存间的交换，从而实现了更稳定的生成速度和更大分辨率的支持。

2. Xe2 架构与 XMX 引擎：能效与算力的双重飞跃

B70 不仅仅是硬件堆料，其架构效率的提升同样显著。

计算效能：实测单精度性能（FP32）达到22.6 TFLOPS，比前代提升了约87%。得益于第二代 Xe-core 的重新设计，其单核性能提升达 70%，能效比提升 50%。

AI 加速：内置的XMX 引擎在进行 INT8 推理时，吞吐量可达传统 MAC 运算的 16 倍，峰值 AI 算力高达367 TOPS。这在 vLLM 推理测试中得到了体现，单卡 DeepSeek-R1-Distill-Qwen-7B 在无上下文时可轻松突破62 Tokens/s。

3. 智能体（Agent）场景：极佳的工具调用稳定性

在反映实际工作流能力的tool-eval-bench (TC15)测试中，B70 配合 Qwen3.5/3.6 系列模型表现惊艳。

高分表现：在多项测试中录得97 分乃至 100 分满分，证明了 B70 在智能体任务（如选择工具、参数传递、链式调用）中具备极高的可靠性。

并行加速：通过-tp 2（张量并行）或-dp 2（数据并行）部署，B70 双卡系统在处理多用户并发请求时表现出色，-dp 2 模式下性能比单卡提升高达71%，非常适合构建中小型企业内部的 AI 推理服务器。

4. 软件生态与性价比：开放且高效

开箱即用：依托 Intel 维护的llm-scaler项目和vLLM 容器化部署，开发者可以在 Ubuntu 环境下快速搭建高效的推理环境。

世界级性价比：官方资料显示，Arc B70在工作站级别中实现了卓越的性价比，每单位成本带来的性能表现位居前列。它能让用户在本地运行复杂的生成式 AI 模型，既降低了云端订阅成本，又确保了核心数据的隐私安全。

正如英特尔所强调的，Intel Arc Pro B70 正在展示出主流工作站中高性价比选择，它可以很好的成为单卡解决方案，依靠充足的PCIe 5.0带宽满足多卡互联，成为中小型企业、开发者与个人工作室立项选择。

强悍的本地算力也意味着AI工作站可以不依靠专有AI平台订阅费、无需封闭生态的授权成本，通过Linux + Docker的维护体系，降低了长期运维开销。配合多卡互联变得轻而易举，也进而挑战原本需要使用高端服务器GPU才能使用的场景。

以目前的情况看，Intel Arc Pro B70 凭借32GB 显存与 Xe2 架构的强强联手，成功跨越了“够用”到“好用”的门槛。其单卡性能基本可以匹敌双卡 B60，且在显存天花板上更具优势。对于追求高效 AI 推理、复杂视频渲染以及高性价比工作站方案的用户而言，Intel Arc Pro B70 无疑是当前最值得投资的专业级显卡之一。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.