算力转向推理，AI芯片规则重写|内存|英伟达|存储器|新模型|图形处理器

算力转向推理，AI芯片规则重写

分享至

Token皆有成本，架构决定战略。

2025年12月24日，英伟达以200亿美元收购了Groq的推理技术授权及核心团队。时隔两个月，2026年2月20日，加拿大AI芯片初创企业Taalas推出推理芯片HC1。该芯片运行Llama 3.1 8B模型时，单用户推理速度可达每秒16960个token，在同等测试条件下，性能约为英伟达B200的48倍。2026年5月14日，Cerebras正式登陆资本市场上市，再度让AI推理芯片行业受到市场广泛关注。

从英伟达斥巨资布局、大批初创企业入局，再到资本市场开始对相关企业进行估值，不难看出，AI推理时代下，行业竞争的核心已从打造“超大”模型，转向研发“高效”模型。

行业风向转变：从训练走向推理

2022年生成式AI兴起初期，行业竞争聚焦于模型训练。谁能训练出性能最强的大模型，谁就能掌握竞争主动权。各大企业纷纷投入巨额资金，不断扩充模型参数、叠加芯片算力，力求实现模型规模与能力的跨越式提升。

但随着AI服务进入常态化落地阶段，成本结构也随之发生改变。训练属于资金投入大、使用频次低的研发开支，而推理则是高频次、长期持续的成本项，直接与企业营收挂钩。单token处理成本与能效表现，会直接影响企业毛利率与业务规模化能力。每一次接口调用、每一个生成的token，都会产生算力消耗，进一步压缩利润空间。倘若token生成成本无法随业务规模扩大而下降，商业模式的可持续性将遭到质疑。

在此背景下，软硬件研发的重心开始转向吞吐能力、能效比与存储架构优化。行业不再一味追求峰值算力，而是更加注重数据流转效率与低延迟设计。

通用图形处理器的架构瓶颈

传统通用图形处理器依靠高带宽内存（HBM）与外置DRAM存储模型参数，计算核心与存储单元物理分离，数据需要在芯片与封装组件之间频繁交互。随着推理业务流量持续增长，通用图形处理器的架构短板愈发凸显。

基于矩阵运算的Transformer模型推理任务，主要受限于内存带宽与访问延迟。高带宽内存虽能提供出色的带宽性能，但也存在封装工艺复杂、量产良率不佳、成本高昂等问题，且带宽提升的同时，功耗也会同步上涨。面对小批量、低延迟的推理请求，图形处理器难以发挥大规模并行计算的优势，最终导致硬件利用率走低、单token处理成本攀升。

与此同时，模型规模已不再是衡量竞争力的唯一标准，市场开始探索在保留推理能力的前提下对模型进行压缩。例如，1.58比特量化、权重剪枝等技术，可让模型在占用极小内存空间的同时，维持原有推理精度；混合专家（MoE）架构则采用“局部激活”机制，每次推理仅启动部分子网络，以此削减整体计算量。

轻量化模型的普及，为硬件设计开辟了新方向：当模型参数与架构趋于稳定，不再需要高成本的动态内存来适配灵活迭代需求时，将算法直接嵌入芯片硬件的路线，便具备了商业落地的可行性。

硬编码推理芯片：功耗、散热与成本优势凸显

硬编码推理芯片的出现，正是为了解决能效瓶颈。以Taalas为代表的企业，将模型参数固化在掩膜只读存储器（Mask ROM）中，利用片内静态随机存储器（SRAM）处理动态数据，大幅减少外部内存的数据交互功耗，显著提升单位功耗、单位成本下的token处理量。这类芯片核心优势在于低延迟、低功耗、高吞吐，同时散热与封装设计也得以简化。

不过，行业最为担忧的问题，仍是硬件面对模型快速迭代时的灵活性不足。相较于可编程架构，专用硬编码芯片可调整空间极小。这类产品必须应用在场景高度稳定、部署规模足够庞大的领域，才能摊平一次性工程费用（NRE）。生态层面同样存在壁垒：目前云市场仍以通用平台为主，客户也更倾向于选择可跟随模型同步升级的灵活方案。

为化解上述风险，厂商正搭建自动化模型转芯片流程、预制晶圆方案，同时研发融合量化、LoRA微调技术的混合可编程架构，在硬编码与灵活性之间寻求平衡，推动产品商业化落地。

长远来看，在低延迟要求极高、部署场景封闭、模型架构稳定、数据隐私要求严苛且落地规模明确的领域，硬编码技术将迎来快速发展。这类芯片可适配常规风冷机架，降低能耗与硬件投入，对云服务商及垂直领域集成商吸引力十足。反观传统依托软件调度的专用集成电路（ASIC）厂商，则会在架构层面面临性能压力。

综合来看，集邦咨询认为，通用图形处理器仍将主导模型训练以及多模型混合运行的场景；而在业务成熟、运行规律可预判的推理场景中，专用架构芯片将逐步占据一席之地。二者并非替代关系，而是聚焦对能效、成本敏感度不同的细分领域。整个行业将逐步形成通用计算与专用计算并行发展的双轨格局。

Taalas HC1：硬编码推理方案的实践样本

2026年2月20日，加拿大AI芯片初创企业Taalas推出HC1芯片，该产品将Llama 3.1 8B模型直接硬编码至硬件内部，单用户推理吞吐达到每秒16960个token。

Taalas HC1采用台积电N6工艺，无需搭载高带宽内存，也不使用CoWoS封装，单芯片热设计功耗约250瓦，仅依靠风冷即可运行。据Taalas测算，在运行Llama 3.1 8B模型时，英伟达B200（吞吐优化版）每生成百万token的成本为3.79美分，而Taalas HC1仅需0.75美分，成本约为前者的五分之一。

内置Llama 3.1 8B模型的Taalas HC1芯片

Taalas HC1运行Llama 3.1 8B模型的单用户token吞吐表现

Taalas实现超高算力效率的核心，是采用存内计算（CIM）架构。该技术将计算单元集成在存储器内部，数据可直接在存储单元中完成运算，免去计算核心与内存之间的频繁数据搬运，打破存储墙瓶颈，同时降低运算过程中的额外延迟与功耗。

存内计算是什么？

1945年，数学家冯・诺依曼提出冯・诺依曼架构。此后芯片设计均沿用计算单元与存储单元相互分离的结构，以此保障硬件具备更强的通用性与灵活性。

但随着内存带宽与算力的发展速度逐渐失衡，计算单元与内存之间的数据传输，逐渐成为性能提升的主要制约因素。存内计算（CIM）技术应运而生，目前已分化出数字存内计算（DCIM）、模拟存内计算（ACIM）、混合存内计算等多种技术形态。不过，适配存内计算的编程语言、底层软件架构及各类应用尚未完全成熟，该技术整体仍处在发展初期。

存内计算技术类型对比表，涵盖数字、模拟、混合存内计算的原理、精度与能效差异

相较于常规存内计算方案，Taalas的技术路线更为激进，秉持“模型即硬件”的设计理念，打造全硬件定义的AI核心架构，把模型参数直接固化在芯片的掩膜只读存储器中。这套方案既保留了存内计算低延迟、低功耗的优势，也规避了当前存内计算软件生态不完善的短板。

除了极致的算力效率，依托高密度只读存储器存储模型参数，Taalas针对全新AI模型开发专用芯片时，仅需修改两层掩膜，从模型转化为实体芯片的周期可缩短至两个月。同时芯片保留部分静态随机存储器，用于存放键值缓存与LoRA微调参数，以此弥补硬编码架构灵活性不足的问题。

Taalas的全硬件定义路线与Groq的全软件定义路线，实现方式虽截然不同，但目标一致：尽可能实现静态调度与全确定性运算，用动态灵活性换取极致运行效率。

推理芯片新时代：多条技术路线并行发展

除Taalas之外，越来越多专注于高效推理赛道的AI芯片初创企业相继入局，包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文汇总了各家主流芯片参数规格。

高效AI推理芯片参数对比表

需要说明的是，行业普遍将存内计算（CIM）作为一类架构统称，但各家具体实现方式差异极大。Taalas HC1将模型参数直接硬编码至掩膜只读存储器，属于纯硬件定义方案；Etched旗下Sohu芯片同样采用硬编码架构，但可适配所有Transformer模型，灵活性更高；d-Matrix的Corsair芯片以数字存内计算为核心，将AI模型底层架构嵌入硬件，适配范围更广，灵活性优于Etched；Untether AI的Boqueria芯片采用近内存计算架构，将精简指令集（RISC-V）处理器与运算单元直接集成在静态随机存储器阵列中；Axelera AI的Metis人工智能处理器（AIPU）同样搭载数字存内计算技术，由精简指令集架构管控数据流转。

d-Matrix Corsair芯片架构

Untether AI Boqueria芯片架构

2026年5月14日，当下推理芯片领域热度最高的企业Cerebras正式于纳斯达克上市。其核心技术为晶圆级集成，将整片12英寸晶圆封装为单颗芯片（WSE-3），片内集成44GB静态随机存储器，内存带宽可达21PB/s。目前Cerebras已与OpenAI达成为期三年的算力合作，合作规模超200亿美元，算力部署容量达750兆瓦。

Cerebras WSE-3芯片四级架构示意图

现阶段整个市场仍处于早期探索阶段，多条技术路线同步推进，包括存内计算、静态随机存储器优先架构、晶圆级集成、张量收缩处理器等。业内预计，未来推理芯片架构会逐步融合各类技术优势，以此满足AI推理场景对性能与能效的综合要求。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.