AI推理的瓶颈正在从算力转向带宽。一家中国台湾的芯片企业给出了新解法。
Skymizer近日发布HTX301加速器,专为大模型推理解码阶段设计。与负责预填充的GPU分工协作,这款芯片试图解决一个被忽视的效率问题:当GPU算力闲置等待数据时,系统整体能效被白白消耗。
![]()
技术路线选择了软硬件协同。HTX301基于Skymizer自研的HyperThought平台和LISA指令集架构,定位很清晰——不做通用计算,只啃带宽密集型负载这块硬骨头。
部署形态有两种。SoC集成适合定制场景,更吸睛的是PCIe AIC方案:单卡塞进6颗HTX301芯片,配384GB内存,功耗控制在240W。这个配置能本地运行700B参数的大模型,对需要私有化部署的企业颇具吸引力。
数字背后的取舍值得玩味。384GB内存对应700B模型,意味着压缩或量化在所难免;240W功耗相比动辄上千瓦的GPU集群,能效比是卖点,但性能天花板同样明显。这不是要取代GPU,而是在推理流水线上切走特定环节。
大模型推理正在分层。预填充需要算力暴力,解码阶段更吃内存带宽——HTX301押注的正是这个结构性机会。能否在英伟达生态的缝隙里找到位置,取决于实际延迟数据和软件适配进度。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.