英特尔在今年5月发布了一款可扩展且易于存取的工作站级至强平台,代号“Project Battlematrix,”帮助AI开发者解决其所面临的难题。其支持最多八块锐炫Pro B60 24GB显卡,实现多卡并行,拥有高达192GB的显存,可运行高达1500亿参数的中等规模且精度高的AI模型。英特尔希望通过简化设计,搭配经过优化的最新推理软件,加速其GPU与AI战略。
![]()
近日英特尔分享了LLM Scaler container 1.0版本的最新进展,对于早期客户的支持至关重要,其中包括:
vLLM优化
针对长输入长度(>4K)的TPOP性能优化 - 在32B KPI模型上,40K序列长度的效能提升高达1.8倍;在70B KPI模型上,40K序列长度的效能提升高达4.2倍。
相比于上次发布,进行了性能优化,8B-32B KPI模型的输出吞吐量提升约10%。
逐层在线量化,以减少所需的显存。
vLLM中的PP(pipeline parallelism)支持(实验性)。
torch.compile(实验性)。
推测译码(实验性)。
支持嵌入、重新排序模型。
增强的多模态模型支持。
最大长度自动检测。
数据平行支持。
OneCCL 基准测试工具启用
XPU管理员
GPU功耗
GPU固件更新
GPU诊断
GPU显存带宽
英特尔计划在今年第三季度末推出LLM Scaler的强化版本,并新增额外功能,预计第四季度发布完整的功能集。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.