网易首页 > 网易号 > 正文 申请入驻

算力转向推理,AI芯片规则重写

0
分享至



Token皆有成本,架构决定战略。

2025年12月24日,英伟达以200亿美元收购了Groq的推理技术授权及核心团队。时隔两个月,2026年2月20日,加拿大AI芯片初创企业Taalas推出推理芯片HC1。该芯片运行Llama 3.1 8B模型时,单用户推理速度可达每秒16960个token,在同等测试条件下,性能约为英伟达B200的48倍。2026年5月14日,Cerebras正式登陆资本市场上市,再度让AI推理芯片行业受到市场广泛关注。

从英伟达斥巨资布局、大批初创企业入局,再到资本市场开始对相关企业进行估值,不难看出,AI推理时代下,行业竞争的核心已从打造“超大”模型,转向研发“高效”模型。

行业风向转变:从训练走向推理

2022年生成式AI兴起初期,行业竞争聚焦于模型训练。谁能训练出性能最强的大模型,谁就能掌握竞争主动权。各大企业纷纷投入巨额资金,不断扩充模型参数、叠加芯片算力,力求实现模型规模与能力的跨越式提升。

但随着AI服务进入常态化落地阶段,成本结构也随之发生改变。训练属于资金投入大、使用频次低的研发开支,而推理则是高频次、长期持续的成本项,直接与企业营收挂钩。单token处理成本与能效表现,会直接影响企业毛利率与业务规模化能力。每一次接口调用、每一个生成的token,都会产生算力消耗,进一步压缩利润空间。倘若token生成成本无法随业务规模扩大而下降,商业模式的可持续性将遭到质疑。

在此背景下,软硬件研发的重心开始转向吞吐能力、能效比与存储架构优化。行业不再一味追求峰值算力,而是更加注重数据流转效率与低延迟设计。

通用图形处理器的架构瓶颈

传统通用图形处理器依靠高带宽内存(HBM)与外置DRAM存储模型参数,计算核心与存储单元物理分离,数据需要在芯片与封装组件之间频繁交互。随着推理业务流量持续增长,通用图形处理器的架构短板愈发凸显。

基于矩阵运算的Transformer模型推理任务,主要受限于内存带宽与访问延迟。高带宽内存虽能提供出色的带宽性能,但也存在封装工艺复杂、量产良率不佳、成本高昂等问题,且带宽提升的同时,功耗也会同步上涨。面对小批量、低延迟的推理请求,图形处理器难以发挥大规模并行计算的优势,最终导致硬件利用率走低、单token处理成本攀升。

与此同时,模型规模已不再是衡量竞争力的唯一标准,市场开始探索在保留推理能力的前提下对模型进行压缩。例如,1.58比特量化、权重剪枝等技术,可让模型在占用极小内存空间的同时,维持原有推理精度;混合专家(MoE)架构则采用“局部激活”机制,每次推理仅启动部分子网络,以此削减整体计算量。

轻量化模型的普及,为硬件设计开辟了新方向:当模型参数与架构趋于稳定,不再需要高成本的动态内存来适配灵活迭代需求时,将算法直接嵌入芯片硬件的路线,便具备了商业落地的可行性。

硬编码推理芯片:功耗、散热与成本优势凸显

硬编码推理芯片的出现,正是为了解决能效瓶颈。以Taalas为代表的企业,将模型参数固化在掩膜只读存储器(Mask ROM)中,利用片内静态随机存储器(SRAM)处理动态数据,大幅减少外部内存的数据交互功耗,显著提升单位功耗、单位成本下的token处理量。这类芯片核心优势在于低延迟、低功耗、高吞吐,同时散热与封装设计也得以简化。

不过,行业最为担忧的问题,仍是硬件面对模型快速迭代时的灵活性不足。相较于可编程架构,专用硬编码芯片可调整空间极小。这类产品必须应用在场景高度稳定、部署规模足够庞大的领域,才能摊平一次性工程费用(NRE)。生态层面同样存在壁垒:目前云市场仍以通用平台为主,客户也更倾向于选择可跟随模型同步升级的灵活方案。

为化解上述风险,厂商正搭建自动化模型转芯片流程、预制晶圆方案,同时研发融合量化、LoRA微调技术的混合可编程架构,在硬编码与灵活性之间寻求平衡,推动产品商业化落地。

长远来看,在低延迟要求极高、部署场景封闭、模型架构稳定、数据隐私要求严苛且落地规模明确的领域,硬编码技术将迎来快速发展。这类芯片可适配常规风冷机架,降低能耗与硬件投入,对云服务商及垂直领域集成商吸引力十足。反观传统依托软件调度的专用集成电路(ASIC)厂商,则会在架构层面面临性能压力。

综合来看,集邦咨询认为,通用图形处理器仍将主导模型训练以及多模型混合运行的场景;而在业务成熟、运行规律可预判的推理场景中,专用架构芯片将逐步占据一席之地。二者并非替代关系,而是聚焦对能效、成本敏感度不同的细分领域。整个行业将逐步形成通用计算与专用计算并行发展的双轨格局。

Taalas HC1:硬编码推理方案的实践样本

2026年2月20日,加拿大AI芯片初创企业Taalas推出HC1芯片,该产品将Llama 3.1 8B模型直接硬编码至硬件内部,单用户推理吞吐达到每秒16960个token。

Taalas HC1采用台积电N6工艺,无需搭载高带宽内存,也不使用CoWoS封装,单芯片热设计功耗约250瓦,仅依靠风冷即可运行。据Taalas测算,在运行Llama 3.1 8B模型时,英伟达B200(吞吐优化版)每生成百万token的成本为3.79美分,而Taalas HC1仅需0.75美分,成本约为前者的五分之一。



内置Llama 3.1 8B模型的Taalas HC1芯片



Taalas HC1运行Llama 3.1 8B模型的单用户token吞吐表现

Taalas实现超高算力效率的核心,是采用存内计算(CIM)架构。该技术将计算单元集成在存储器内部,数据可直接在存储单元中完成运算,免去计算核心与内存之间的频繁数据搬运,打破存储墙瓶颈,同时降低运算过程中的额外延迟与功耗。

存内计算是什么?

1945年,数学家冯・诺依曼提出冯・诺依曼架构。此后芯片设计均沿用计算单元与存储单元相互分离的结构,以此保障硬件具备更强的通用性与灵活性。

但随着内存带宽与算力的发展速度逐渐失衡,计算单元与内存之间的数据传输,逐渐成为性能提升的主要制约因素。存内计算(CIM)技术应运而生,目前已分化出数字存内计算(DCIM)、模拟存内计算(ACIM)、混合存内计算等多种技术形态。不过,适配存内计算的编程语言、底层软件架构及各类应用尚未完全成熟,该技术整体仍处在发展初期。



存内计算技术类型对比表,涵盖数字、模拟、混合存内计算的原理、精度与能效差异

相较于常规存内计算方案,Taalas的技术路线更为激进,秉持“模型即硬件”的设计理念,打造全硬件定义的AI核心架构,把模型参数直接固化在芯片的掩膜只读存储器中。这套方案既保留了存内计算低延迟、低功耗的优势,也规避了当前存内计算软件生态不完善的短板。

除了极致的算力效率,依托高密度只读存储器存储模型参数,Taalas针对全新AI模型开发专用芯片时,仅需修改两层掩膜,从模型转化为实体芯片的周期可缩短至两个月。同时芯片保留部分静态随机存储器,用于存放键值缓存与LoRA微调参数,以此弥补硬编码架构灵活性不足的问题。

Taalas的全硬件定义路线与Groq的全软件定义路线,实现方式虽截然不同,但目标一致:尽可能实现静态调度与全确定性运算,用动态灵活性换取极致运行效率。

推理芯片新时代:多条技术路线并行发展

除Taalas之外,越来越多专注于高效推理赛道的AI芯片初创企业相继入局,包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文汇总了各家主流芯片参数规格。



高效AI推理芯片参数对比表

需要说明的是,行业普遍将存内计算(CIM)作为一类架构统称,但各家具体实现方式差异极大。Taalas HC1将模型参数直接硬编码至掩膜只读存储器,属于纯硬件定义方案;Etched旗下Sohu芯片同样采用硬编码架构,但可适配所有Transformer模型,灵活性更高;d-Matrix的Corsair芯片以数字存内计算为核心,将AI模型底层架构嵌入硬件,适配范围更广,灵活性优于Etched;Untether AI的Boqueria芯片采用近内存计算架构,将精简指令集(RISC-V)处理器与运算单元直接集成在静态随机存储器阵列中;Axelera AI的Metis人工智能处理器(AIPU)同样搭载数字存内计算技术,由精简指令集架构管控数据流转。



d-Matrix Corsair芯片架构



Untether AI Boqueria芯片架构

2026年5月14日,当下推理芯片领域热度最高的企业Cerebras正式于纳斯达克上市。其核心技术为晶圆级集成,将整片12英寸晶圆封装为单颗芯片(WSE-3),片内集成44GB静态随机存储器,内存带宽可达21PB/s。目前Cerebras已与OpenAI达成为期三年的算力合作,合作规模超200亿美元,算力部署容量达750兆瓦。



Cerebras WSE-3芯片四级架构示意图

现阶段整个市场仍处于早期探索阶段,多条技术路线同步推进,包括存内计算、静态随机存储器优先架构、晶圆级集成、张量收缩处理器等。业内预计,未来推理芯片架构会逐步融合各类技术优势,以此满足AI推理场景对性能与能效的综合要求。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际奥委会主席:我不赞成向参加奥运会的运动员支付报酬

国际奥委会主席:我不赞成向参加奥运会的运动员支付报酬

乒乓助手
2026-05-30 00:02:48
A股:紧急提醒2.5亿股民!从6月1日起,下周A股或将来迎牛低头行情?

A股:紧急提醒2.5亿股民!从6月1日起,下周A股或将来迎牛低头行情?

风风顺
2026-05-30 00:35:03
历史不会重演,但会惊人相似:新能源车,极可能重走燃油车的老路

历史不会重演,但会惊人相似:新能源车,极可能重走燃油车的老路

西莫的艺术宫殿
2026-05-29 13:33:47
为给儿子办婚事,妈妈一口气投100万元炒股,警方:99.7万元买成游戏点券

为给儿子办婚事,妈妈一口气投100万元炒股,警方:99.7万元买成游戏点券

佛山电视台小强热线
2026-05-29 19:48:55
彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

史之铭
2026-05-23 00:48:03
日本被断供稀土超4个月,日本制造没倒,靠什么躲过了致命一击

日本被断供稀土超4个月,日本制造没倒,靠什么躲过了致命一击

深度解析热点
2026-05-25 13:56:20
“好豪迈的洛丽塔”,165cm未成年女儿穿搭火了,家长尴尬不敢认

“好豪迈的洛丽塔”,165cm未成年女儿穿搭火了,家长尴尬不敢认

妍妍教育日记
2026-05-12 18:46:53
时代洗牌!50万留学生进退两难:美国不留中国不收,成最惨一代?

时代洗牌!50万留学生进退两难:美国不留中国不收,成最惨一代?

青眼财经
2026-05-29 20:15:27
基因铁律被打破!这只大灰狼做了件不可思议的事

基因铁律被打破!这只大灰狼做了件不可思议的事

万物杂志
2026-05-29 06:05:57
曝将麦凯恩送至雷霆后 76人今夏续约格里姆斯的压力有所增加

曝将麦凯恩送至雷霆后 76人今夏续约格里姆斯的压力有所增加

北青网-北京青年报
2026-05-29 19:30:37
女子花4万多购入老庙黄金项链 回家一搜全网同款 差价近2.5万元

女子花4万多购入老庙黄金项链 回家一搜全网同款 差价近2.5万元

新浪财经
2026-05-29 12:43:10
雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

做一个合格的吃瓜群众
2026-05-27 15:18:42
拦截强度远超想象,官方公布驱离荷兰军舰视频,战机带PL升空

拦截强度远超想象,官方公布驱离荷兰军舰视频,战机带PL升空

三叔的装备空间
2026-05-28 23:37:08
太恶劣了,上海政法学院女厕所也被偷拍了,学院发文回应

太恶劣了,上海政法学院女厕所也被偷拍了,学院发文回应

潇拾亿郎
2026-05-29 17:00:52
女演员颜值有多重要?看刘浩存和杨紫就知道了,没对比就没伤害

女演员颜值有多重要?看刘浩存和杨紫就知道了,没对比就没伤害

草莓信箱
2026-05-20 02:30:26
恭喜!中国又一位奥运冠军结婚了,29岁嫁给教练迎事业爱情双丰收

恭喜!中国又一位奥运冠军结婚了,29岁嫁给教练迎事业爱情双丰收

体坛小二哥
2026-05-28 22:34:08
王传福再放两个大招!汽车界炸锅了!

王传福再放两个大招!汽车界炸锅了!

大佬灼见
2026-05-29 23:25:34
人饿到极致身体会发生哪些变化?网友:直接逼出了茹毛饮血的技能

人饿到极致身体会发生哪些变化?网友:直接逼出了茹毛饮血的技能

夜深爱杂谈
2026-05-30 08:28:26
我主刀16年被降职,上头指名要我手术,我:已辞职,院长懵了

我主刀16年被降职,上头指名要我手术,我:已辞职,院长懵了

青青会讲故事
2025-06-30 16:11:45
我炖了3小时的排骨,公公尝一口就扣我头上,我直接掀桌,婆家懵了

我炖了3小时的排骨,公公尝一口就扣我头上,我直接掀桌,婆家懵了

麦子情感故事
2026-05-29 20:13:28
2026-05-30 09:16:49
半导体产业纵横 incentive-icons
半导体产业纵横
探索IC产业无限可能。
2855文章数 1333关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

"莫氏鸡煲"店主老莫:靠流量还清欠债 计划3年后退休

头条要闻

"莫氏鸡煲"店主老莫:靠流量还清欠债 计划3年后退休

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
房产
数码
艺术
亲子

aespa治好了我的黑眼圈焦虑

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

数码要闻

宏碁推出多款"Wildcat Lake"家用/商用笔记本电脑

艺术要闻

粉墙黛瓦别样美

亲子要闻

孩子减脂减重饿的哇哇哭正在毁掉他的代谢

无障碍浏览 进入关怀版