网易首页 > 网易号 > 正文 申请入驻

算力转向推理,AI芯片规则重写

0
分享至


Token皆有成本,架构决定战略。

2025年12月24日,英伟达以200亿美元收购了Groq的推理技术授权及核心团队。时隔两个月,2026年2月20日,加拿大AI芯片初创企业Taalas推出推理芯片HC1。该芯片运行Llama 3.1 8B模型时,单用户推理速度可达每秒16960个token,在同等测试条件下,性能约为英伟达B200的48倍。2026年5月14日,Cerebras正式登陆资本市场上市,再度让AI推理芯片行业受到市场广泛关注。

从英伟达斥巨资布局、大批初创企业入局,再到资本市场开始对相关企业进行估值,不难看出,AI推理时代下,行业竞争的核心已从打造“超大”模型,转向研发“高效”模型。

行业风向转变:从训练走向推理

2022年生成式AI兴起初期,行业竞争聚焦于模型训练。谁能训练出性能最强的大模型,谁就能掌握竞争主动权。各大企业纷纷投入巨额资金,不断扩充模型参数、叠加芯片算力,力求实现模型规模与能力的跨越式提升。

但随着AI服务进入常态化落地阶段,成本结构也随之发生改变。训练属于资金投入大、使用频次低的研发开支,而推理则是高频次、长期持续的成本项,直接与企业营收挂钩。单token处理成本与能效表现,会直接影响企业毛利率与业务规模化能力。每一次接口调用、每一个生成的token,都会产生算力消耗,进一步压缩利润空间。倘若token生成成本无法随业务规模扩大而下降,商业模式的可持续性将遭到质疑。

在此背景下,软硬件研发的重心开始转向吞吐能力、能效比与存储架构优化。行业不再一味追求峰值算力,而是更加注重数据流转效率与低延迟设计。

通用图形处理器的架构瓶颈

传统通用图形处理器依靠高带宽内存(HBM)与外置DRAM存储模型参数,计算核心与存储单元物理分离,数据需要在芯片与封装组件之间频繁交互。随着推理业务流量持续增长,通用图形处理器的架构短板愈发凸显。

基于矩阵运算的Transformer模型推理任务,主要受限于内存带宽与访问延迟。高带宽内存虽能提供出色的带宽性能,但也存在封装工艺复杂、量产良率不佳、成本高昂等问题,且带宽提升的同时,功耗也会同步上涨。面对小批量、低延迟的推理请求,图形处理器难以发挥大规模并行计算的优势,最终导致硬件利用率走低、单token处理成本攀升。

与此同时,模型规模已不再是衡量竞争力的唯一标准,市场开始探索在保留推理能力的前提下对模型进行压缩。例如,1.58比特量化、权重剪枝等技术,可让模型在占用极小内存空间的同时,维持原有推理精度;混合专家(MoE)架构则采用“局部激活”机制,每次推理仅启动部分子网络,以此削减整体计算量。

轻量化模型的普及,为硬件设计开辟了新方向:当模型参数与架构趋于稳定,不再需要高成本的动态内存来适配灵活迭代需求时,将算法直接嵌入芯片硬件的路线,便具备了商业落地的可行性。

硬编码推理芯片:功耗、散热与成本优势凸显

硬编码推理芯片的出现,正是为了解决能效瓶颈。以Taalas为代表的企业,将模型参数固化在掩膜只读存储器(Mask ROM)中,利用片内静态随机存储器(SRAM)处理动态数据,大幅减少外部内存的数据交互功耗,显著提升单位功耗、单位成本下的token处理量。这类芯片核心优势在于低延迟、低功耗、高吞吐,同时散热与封装设计也得以简化。

不过,行业最为担忧的问题,仍是硬件面对模型快速迭代时的灵活性不足。相较于可编程架构,专用硬编码芯片可调整空间极小。这类产品必须应用在场景高度稳定、部署规模足够庞大的领域,才能摊平一次性工程费用(NRE)。生态层面同样存在壁垒:目前云市场仍以通用平台为主,客户也更倾向于选择可跟随模型同步升级的灵活方案。

为化解上述风险,厂商正搭建自动化模型转芯片流程、预制晶圆方案,同时研发融合量化、LoRA微调技术的混合可编程架构,在硬编码与灵活性之间寻求平衡,推动产品商业化落地。

长远来看,在低延迟要求极高、部署场景封闭、模型架构稳定、数据隐私要求严苛且落地规模明确的领域,硬编码技术将迎来快速发展。这类芯片可适配常规风冷机架,降低能耗与硬件投入,对云服务商及垂直领域集成商吸引力十足。反观传统依托软件调度的专用集成电路(ASIC)厂商,则会在架构层面面临性能压力。

综合来看,集邦咨询认为,通用图形处理器仍将主导模型训练以及多模型混合运行的场景;而在业务成熟、运行规律可预判的推理场景中,专用架构芯片将逐步占据一席之地。二者并非替代关系,而是聚焦对能效、成本敏感度不同的细分领域。整个行业将逐步形成通用计算与专用计算并行发展的双轨格局。

Taalas HC1:硬编码推理方案的实践样本

2026年2月20日,加拿大AI芯片初创企业Taalas推出HC1芯片,该产品将Llama 3.1 8B模型直接硬编码至硬件内部,单用户推理吞吐达到每秒16960个token。

Taalas HC1采用台积电N6工艺,无需搭载高带宽内存,也不使用CoWoS封装,单芯片热设计功耗约250瓦,仅依靠风冷即可运行。据Taalas测算,在运行Llama 3.1 8B模型时,英伟达B200(吞吐优化版)每生成百万token的成本为3.79美分,而Taalas HC1仅需0.75美分,成本约为前者的五分之一。


内置Llama 3.1 8B模型的Taalas HC1芯片


Taalas HC1运行Llama 3.1 8B模型的单用户token吞吐表现

Taalas实现超高算力效率的核心,是采用存内计算(CIM)架构。该技术将计算单元集成在存储器内部,数据可直接在存储单元中完成运算,免去计算核心与内存之间的频繁数据搬运,打破存储墙瓶颈,同时降低运算过程中的额外延迟与功耗。

存内计算是什么?

1945年,数学家冯・诺依曼提出冯・诺依曼架构。此后芯片设计均沿用计算单元与存储单元相互分离的结构,以此保障硬件具备更强的通用性与灵活性。

但随着内存带宽与算力的发展速度逐渐失衡,计算单元与内存之间的数据传输,逐渐成为性能提升的主要制约因素。存内计算(CIM)技术应运而生,目前已分化出数字存内计算(DCIM)、模拟存内计算(ACIM)、混合存内计算等多种技术形态。不过,适配存内计算的编程语言、底层软件架构及各类应用尚未完全成熟,该技术整体仍处在发展初期。


存内计算技术类型对比表,涵盖数字、模拟、混合存内计算的原理、精度与能效差异

相较于常规存内计算方案,Taalas的技术路线更为激进,秉持“模型即硬件”的设计理念,打造全硬件定义的AI核心架构,把模型参数直接固化在芯片的掩膜只读存储器中。这套方案既保留了存内计算低延迟、低功耗的优势,也规避了当前存内计算软件生态不完善的短板。

除了极致的算力效率,依托高密度只读存储器存储模型参数,Taalas针对全新AI模型开发专用芯片时,仅需修改两层掩膜,从模型转化为实体芯片的周期可缩短至两个月。同时芯片保留部分静态随机存储器,用于存放键值缓存与LoRA微调参数,以此弥补硬编码架构灵活性不足的问题。

Taalas的全硬件定义路线与Groq的全软件定义路线,实现方式虽截然不同,但目标一致:尽可能实现静态调度与全确定性运算,用动态灵活性换取极致运行效率。

推理芯片新时代:多条技术路线并行发展

除Taalas之外,越来越多专注于高效推理赛道的AI芯片初创企业相继入局,包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文汇总了各家主流芯片参数规格。


高效AI推理芯片参数对比表

需要说明的是,行业普遍将存内计算(CIM)作为一类架构统称,但各家具体实现方式差异极大。Taalas HC1将模型参数直接硬编码至掩膜只读存储器,属于纯硬件定义方案;Etched旗下Sohu芯片同样采用硬编码架构,但可适配所有Transformer模型,灵活性更高;d-Matrix的Corsair芯片以数字存内计算为核心,将AI模型底层架构嵌入硬件,适配范围更广,灵活性优于Etched;Untether AI的Boqueria芯片采用近内存计算架构,将精简指令集(RISC-V)处理器与运算单元直接集成在静态随机存储器阵列中;Axelera AI的Metis人工智能处理器(AIPU)同样搭载数字存内计算技术,由精简指令集架构管控数据流转。


d-Matrix Corsair芯片架构


Untether AI Boqueria芯片架构

2026年5月14日,当下推理芯片领域热度最高的企业Cerebras正式于纳斯达克上市。其核心技术为晶圆级集成,将整片12英寸晶圆封装为单颗芯片(WSE-3),片内集成44GB静态随机存储器,内存带宽可达21PB/s。目前Cerebras已与OpenAI达成为期三年的算力合作,合作规模超200亿美元,算力部署容量达750兆瓦。


Cerebras WSE-3芯片四级架构示意图

现阶段整个市场仍处于早期探索阶段,多条技术路线同步推进,包括存内计算、静态随机存储器优先架构、晶圆级集成、张量收缩处理器等。业内预计,未来推理芯片架构会逐步融合各类技术优势,以此满足AI推理场景对性能与能效的综合要求。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婚外情的隐形杀手:线上暧昧,正在掏空你的婚姻

婚外情的隐形杀手:线上暧昧,正在掏空你的婚姻

晚风也遗憾
2026-05-29 02:41:39
历史不会重演,但会惊人相似:中国楼市极大可能重走2015年老路?

历史不会重演,但会惊人相似:中国楼市极大可能重走2015年老路?

专业聊房君
2026-05-29 08:37:43
部门庆功宴上,总监让我坐实习生那桌。董事长千金来敬酒时愣住:小叔,谁安排的?

部门庆功宴上,总监让我坐实习生那桌。董事长千金来敬酒时愣住:小叔,谁安排的?

麦子情感故事
2026-05-29 19:18:35
浙江一对烧伤情侣在527晒结婚照:两人各自在幼年时受伤,2年前刷到妻子账号被吸引,现在感觉很幸福

浙江一对烧伤情侣在527晒结婚照:两人各自在幼年时受伤,2年前刷到妻子账号被吸引,现在感觉很幸福

台州交通广播
2026-05-29 20:25:23
中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

安安说
2026-05-29 10:57:26
大多数中国人的抑郁和焦虑,根本不是心理问题

大多数中国人的抑郁和焦虑,根本不是心理问题

卡皮巴拉去看心理医生
2026-04-27 17:38:32
比加息更猛!美联储新主席沃什要退3万亿押金,推翻18年旧规?

比加息更猛!美联储新主席沃什要退3万亿押金,推翻18年旧规?

小陆搞笑日常
2026-05-29 19:02:04
奚梦瑶何猷君于6月1日在法国举行婚礼,9月在中国澳门举办答谢礼

奚梦瑶何猷君于6月1日在法国举行婚礼,9月在中国澳门举办答谢礼

阿讯说天下
2026-05-29 14:48:58
法拉利首款电车引发巨大争议,岚图销售副总回怼法拉利前主席言论:根本不屑抄你们,我们走的完全是另一条路

法拉利首款电车引发巨大争议,岚图销售副总回怼法拉利前主席言论:根本不屑抄你们,我们走的完全是另一条路

鲁中晨报
2026-05-29 07:06:09
孟英忠不幸遇难,年仅36岁

孟英忠不幸遇难,年仅36岁

蓬勃新闻
2026-05-29 08:55:22
撒贝宁胡杏儿现身广东龙船,一个干划一个脚朝天,恶心一幕出现了

撒贝宁胡杏儿现身广东龙船,一个干划一个脚朝天,恶心一幕出现了

不似少年游
2026-05-29 09:32:54
巩俐与替身同框!俩人长得像一个模子刻的,你能分辨出谁是本尊吗

巩俐与替身同框!俩人长得像一个模子刻的,你能分辨出谁是本尊吗

东方不败然多多
2026-05-30 04:01:12
3-2法网大冷门,世界第30逆转世界第4,德约科维奇遭19岁新锐淘汰

3-2法网大冷门,世界第30逆转世界第4,德约科维奇遭19岁新锐淘汰

侧身凌空斩
2026-05-30 04:51:10
大批社区医院要变天!不再只看病,以后重点管健康

大批社区医院要变天!不再只看病,以后重点管健康

健身狂人
2026-05-29 12:53:21
王传福:L2级就敢扛L3、L4的锅,比亚迪哪来的底气

王传福:L2级就敢扛L3、L4的锅,比亚迪哪来的底气

算力游侠
2026-05-29 04:32:00
只差19分!排位赛还被绝杀,德比斯想翻越75号这座大山,太难了!

只差19分!排位赛还被绝杀,德比斯想翻越75号这座大山,太难了!

刘哥谈体育
2026-05-30 02:11:03
俄罗斯选手夺冠,第2名的乌克兰选手在台上戴上耳机,低头遮眼睛

俄罗斯选手夺冠,第2名的乌克兰选手在台上戴上耳机,低头遮眼睛

风过乡
2026-05-29 20:28:38
江苏通报“幼儿园教师用热熔胶烫伤小女孩”:涉事教师已被停职

江苏通报“幼儿园教师用热熔胶烫伤小女孩”:涉事教师已被停职

闪电新闻
2026-05-29 19:33:40
贾庆林,接见211大学书记、校长

贾庆林,接见211大学书记、校长

双一流高校
2026-05-29 00:11:33
央视总台发布美加墨世界杯权利声明

央视总台发布美加墨世界杯权利声明

财闻
2026-05-29 08:25:39
2026-05-30 07:15:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
810文章数 8565关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
游戏
时尚
手机
公开课

旅游要闻

美媒:科技发展创造赴华新体验

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

推广中奖名单-更新至2026年4月28日推广

手机要闻

连续7个季度超越iOS!鸿蒙份额飙升,安卓却全球失守了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版