![]()
Token皆有成本,架构决定战略。
2025年12月24日,英伟达以200亿美元收购了Groq的推理技术授权及核心团队。时隔两个月,2026年2月20日,加拿大AI芯片初创企业Taalas推出推理芯片HC1。该芯片运行Llama 3.1 8B模型时,单用户推理速度可达每秒16960个token,在同等测试条件下,性能约为英伟达B200的48倍。2026年5月14日,Cerebras正式登陆资本市场上市,再度让AI推理芯片行业受到市场广泛关注。
从英伟达斥巨资布局、大批初创企业入局,再到资本市场开始对相关企业进行估值,不难看出,AI推理时代下,行业竞争的核心已从打造“超大”模型,转向研发“高效”模型。
行业风向转变:从训练走向推理
2022年生成式AI兴起初期,行业竞争聚焦于模型训练。谁能训练出性能最强的大模型,谁就能掌握竞争主动权。各大企业纷纷投入巨额资金,不断扩充模型参数、叠加芯片算力,力求实现模型规模与能力的跨越式提升。
但随着AI服务进入常态化落地阶段,成本结构也随之发生改变。训练属于资金投入大、使用频次低的研发开支,而推理则是高频次、长期持续的成本项,直接与企业营收挂钩。单token处理成本与能效表现,会直接影响企业毛利率与业务规模化能力。每一次接口调用、每一个生成的token,都会产生算力消耗,进一步压缩利润空间。倘若token生成成本无法随业务规模扩大而下降,商业模式的可持续性将遭到质疑。
在此背景下,软硬件研发的重心开始转向吞吐能力、能效比与存储架构优化。行业不再一味追求峰值算力,而是更加注重数据流转效率与低延迟设计。
通用图形处理器的架构瓶颈
传统通用图形处理器依靠高带宽内存(HBM)与外置DRAM存储模型参数,计算核心与存储单元物理分离,数据需要在芯片与封装组件之间频繁交互。随着推理业务流量持续增长,通用图形处理器的架构短板愈发凸显。
基于矩阵运算的Transformer模型推理任务,主要受限于内存带宽与访问延迟。高带宽内存虽能提供出色的带宽性能,但也存在封装工艺复杂、量产良率不佳、成本高昂等问题,且带宽提升的同时,功耗也会同步上涨。面对小批量、低延迟的推理请求,图形处理器难以发挥大规模并行计算的优势,最终导致硬件利用率走低、单token处理成本攀升。
与此同时,模型规模已不再是衡量竞争力的唯一标准,市场开始探索在保留推理能力的前提下对模型进行压缩。例如,1.58比特量化、权重剪枝等技术,可让模型在占用极小内存空间的同时,维持原有推理精度;混合专家(MoE)架构则采用“局部激活”机制,每次推理仅启动部分子网络,以此削减整体计算量。
轻量化模型的普及,为硬件设计开辟了新方向:当模型参数与架构趋于稳定,不再需要高成本的动态内存来适配灵活迭代需求时,将算法直接嵌入芯片硬件的路线,便具备了商业落地的可行性。
硬编码推理芯片:功耗、散热与成本优势凸显
硬编码推理芯片的出现,正是为了解决能效瓶颈。以Taalas为代表的企业,将模型参数固化在掩膜只读存储器(Mask ROM)中,利用片内静态随机存储器(SRAM)处理动态数据,大幅减少外部内存的数据交互功耗,显著提升单位功耗、单位成本下的token处理量。这类芯片核心优势在于低延迟、低功耗、高吞吐,同时散热与封装设计也得以简化。
不过,行业最为担忧的问题,仍是硬件面对模型快速迭代时的灵活性不足。相较于可编程架构,专用硬编码芯片可调整空间极小。这类产品必须应用在场景高度稳定、部署规模足够庞大的领域,才能摊平一次性工程费用(NRE)。生态层面同样存在壁垒:目前云市场仍以通用平台为主,客户也更倾向于选择可跟随模型同步升级的灵活方案。
为化解上述风险,厂商正搭建自动化模型转芯片流程、预制晶圆方案,同时研发融合量化、LoRA微调技术的混合可编程架构,在硬编码与灵活性之间寻求平衡,推动产品商业化落地。
长远来看,在低延迟要求极高、部署场景封闭、模型架构稳定、数据隐私要求严苛且落地规模明确的领域,硬编码技术将迎来快速发展。这类芯片可适配常规风冷机架,降低能耗与硬件投入,对云服务商及垂直领域集成商吸引力十足。反观传统依托软件调度的专用集成电路(ASIC)厂商,则会在架构层面面临性能压力。
综合来看,集邦咨询认为,通用图形处理器仍将主导模型训练以及多模型混合运行的场景;而在业务成熟、运行规律可预判的推理场景中,专用架构芯片将逐步占据一席之地。二者并非替代关系,而是聚焦对能效、成本敏感度不同的细分领域。整个行业将逐步形成通用计算与专用计算并行发展的双轨格局。
Taalas HC1:硬编码推理方案的实践样本
2026年2月20日,加拿大AI芯片初创企业Taalas推出HC1芯片,该产品将Llama 3.1 8B模型直接硬编码至硬件内部,单用户推理吞吐达到每秒16960个token。
Taalas HC1采用台积电N6工艺,无需搭载高带宽内存,也不使用CoWoS封装,单芯片热设计功耗约250瓦,仅依靠风冷即可运行。据Taalas测算,在运行Llama 3.1 8B模型时,英伟达B200(吞吐优化版)每生成百万token的成本为3.79美分,而Taalas HC1仅需0.75美分,成本约为前者的五分之一。
![]()
内置Llama 3.1 8B模型的Taalas HC1芯片
![]()
Taalas HC1运行Llama 3.1 8B模型的单用户token吞吐表现
Taalas实现超高算力效率的核心,是采用存内计算(CIM)架构。该技术将计算单元集成在存储器内部,数据可直接在存储单元中完成运算,免去计算核心与内存之间的频繁数据搬运,打破存储墙瓶颈,同时降低运算过程中的额外延迟与功耗。
存内计算是什么?
1945年,数学家冯・诺依曼提出冯・诺依曼架构。此后芯片设计均沿用计算单元与存储单元相互分离的结构,以此保障硬件具备更强的通用性与灵活性。
但随着内存带宽与算力的发展速度逐渐失衡,计算单元与内存之间的数据传输,逐渐成为性能提升的主要制约因素。存内计算(CIM)技术应运而生,目前已分化出数字存内计算(DCIM)、模拟存内计算(ACIM)、混合存内计算等多种技术形态。不过,适配存内计算的编程语言、底层软件架构及各类应用尚未完全成熟,该技术整体仍处在发展初期。
![]()
存内计算技术类型对比表,涵盖数字、模拟、混合存内计算的原理、精度与能效差异
相较于常规存内计算方案,Taalas的技术路线更为激进,秉持“模型即硬件”的设计理念,打造全硬件定义的AI核心架构,把模型参数直接固化在芯片的掩膜只读存储器中。这套方案既保留了存内计算低延迟、低功耗的优势,也规避了当前存内计算软件生态不完善的短板。
除了极致的算力效率,依托高密度只读存储器存储模型参数,Taalas针对全新AI模型开发专用芯片时,仅需修改两层掩膜,从模型转化为实体芯片的周期可缩短至两个月。同时芯片保留部分静态随机存储器,用于存放键值缓存与LoRA微调参数,以此弥补硬编码架构灵活性不足的问题。
Taalas的全硬件定义路线与Groq的全软件定义路线,实现方式虽截然不同,但目标一致:尽可能实现静态调度与全确定性运算,用动态灵活性换取极致运行效率。
推理芯片新时代:多条技术路线并行发展
除Taalas之外,越来越多专注于高效推理赛道的AI芯片初创企业相继入局,包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文汇总了各家主流芯片参数规格。
![]()
高效AI推理芯片参数对比表
需要说明的是,行业普遍将存内计算(CIM)作为一类架构统称,但各家具体实现方式差异极大。Taalas HC1将模型参数直接硬编码至掩膜只读存储器,属于纯硬件定义方案;Etched旗下Sohu芯片同样采用硬编码架构,但可适配所有Transformer模型,灵活性更高;d-Matrix的Corsair芯片以数字存内计算为核心,将AI模型底层架构嵌入硬件,适配范围更广,灵活性优于Etched;Untether AI的Boqueria芯片采用近内存计算架构,将精简指令集(RISC-V)处理器与运算单元直接集成在静态随机存储器阵列中;Axelera AI的Metis人工智能处理器(AIPU)同样搭载数字存内计算技术,由精简指令集架构管控数据流转。
![]()
d-Matrix Corsair芯片架构
![]()
Untether AI Boqueria芯片架构
2026年5月14日,当下推理芯片领域热度最高的企业Cerebras正式于纳斯达克上市。其核心技术为晶圆级集成,将整片12英寸晶圆封装为单颗芯片(WSE-3),片内集成44GB静态随机存储器,内存带宽可达21PB/s。目前Cerebras已与OpenAI达成为期三年的算力合作,合作规模超200亿美元,算力部署容量达750兆瓦。
![]()
Cerebras WSE-3芯片四级架构示意图
现阶段整个市场仍处于早期探索阶段,多条技术路线同步推进,包括存内计算、静态随机存储器优先架构、晶圆级集成、张量收缩处理器等。业内预计,未来推理芯片架构会逐步融合各类技术优势,以此满足AI推理场景对性能与能效的综合要求。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.