智谱面向部分企业客户推出 GLM-5.1 高速版 API ,其模型输出速度达到 400 tokens/s ,刷新了全球大模型官方接口的端到端速度上限。
在完整保留原有旗舰模型能力的前提下,此高速版通过智谱与 TileRT 团队联合研发的高性能推理引擎进行驱动。此引擎彻底重构了 GPU 的运行调度机制,在编译期将模型静态编排为一个常驻 GPU 的 persistent Engine Kernel 。单卡推理时,计算、异步 IO 与通信被全部拆解为 tile 级微任务并仅启动一次 kernel ,算子间的中间结果通过寄存器和共享缓存直传,消除了传统推理中频繁内核启动与显存读写带来的延迟空泡。
当扩展至多卡尺度时, TileRT 进一步将 specialization 并行思路扩展到整张 8 卡 NVL 拓扑,将原本同构的 GPU 节点特化为承担不同任务的异构 Worker 。在处理 GLM-5.1 的注意层计算时,系统指派 GPU 0 运行稀疏索引 Worker ,专门进行稀疏索引构建与路由决策。同时指派 GPU 1 至 GPU 7 运行 MLA Worker ,负责计算密集阶段并将通信完全下沉至 tile 级任务流水线内部,实现了计算与跨卡通信的深度重叠。
此高速版服务目前已面向智谱 MaaS 平台的部分企业客户开放。未来,此技术还将进一步优化 FP8 推理与超长上下文生产环境,为 AI 编程、实时交互和实时语音等低延迟敏感场景提供更具确定性的性能支持。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.