网易首页 > 网易号 > 正文 申请入驻

从“更快”到“更省”:AI下半场,TPU重构算力版图

0
分享至

当谷歌的大模型 Gemini 3 在2025年末以惊人的多模态处理速度和极低的延迟震撼业界时,外界往往将目光聚焦于算法的精进。然而,真正的功臣正沉默地跳动在谷歌数据中心的机架上——那就是他们潜研10年的 TPU (Tensor Processing Unit)。

长期以来,英伟达凭借其“通用而强大”的 GPU 统治了模型训练的黄金时代。但随着大模型走进规模化应用爆发期,算力逻辑正发生本质改变:“训练为王”的旧秩序正在瓦解,“推理为王”的新时代已经降临。

当专用架构的极致效率突破了通用架构的冗余局限,以 TPU 为代表的 ASIC 芯片正以不可阻挡之势,从英伟达手中接过主角的剧本,重塑全球AI算力的权力版图。

成本为王,芯片变了

这些年,在海内外厂商的共同推动下,大模型和人工智能成为了几乎人尽皆知的热词。所谓大模型,其诞生有点像一个人的成长:先通过预训练“博览群书”,在海量文本中学习语言结构和世界知识;再通过指令微调,学会如何按人类要求组织和表达回答;接着借助基于人类反馈的强化学习,对齐输出风格与边界,使回答更符合人类偏好;最后经过压缩和工程优化部署到服务器上,在与用户交互时实时解析输入,并以逐词预测的方式生成答案。

其中,预训练、微调和强化学习这三个阶段,就是我们常说的“训练”阶段。在这个阶段,谁能更快搭建起大模型,谁就能抢占话语权。基础设施面临着高算力、高显存带宽以及极强多卡互联的需求,以支撑万亿级参数背后的海量矩阵运算和数据同步。凭借高性能的 GPU、CUDA 生态和 NVLink 高速互联技术,英伟达成为了这个阶段毫无争议的赢家。

而在大模型训练完成后,真正的商业价值来自于规模化的推理服务。模型每天要处理数十亿次用户请求,推理成本的高低直接决定了每一次 API 调用的利润空间。此时的核心议题,不再只是能否训练模型,而是能否在保证性能的前提下,降低每一次推理的成本。



因为无论是 OpenAI 还是国产大模型,其核心商业模式都是按每百万 Token 计费。只有不断降低单个 Token 的成本,并提升其生成质量与可靠性,才能使得AI像电力一样,以可负担的成本渗透进各行各业的实时对话、决策与创作场景中。这也是今年下半年以来,大家对 Token per dollar(每美元产出的 Token 量)的关注度空前增长的原因。

在这种“成本为王”的背景下,算力竞争版图正在重塑,高盛最近的一份报告指出,以谷歌TPU 为代表的专用架构正成为强有力的挑战者。报告数据显示,从 TPU v6到 TPU v7,谷歌已将每百万 token 的推理成本降低了约70%;英伟达的 GB 200 NVL72 每百万 token 的推理成本约为 0.27 美元,而谷歌的 TPU v7 在同样的任务负载下,成本已经降至相当甚至更优的水平。尽管英伟达仍毫无疑问是市场的主要参与者,其芯片成本曲线还将继续下行,但 TPU v7 的快速赶超甚至局部超越,则标志着算力竞争格局的转折点已经到来。



成本曲线的陡峭下行,也在现实世界引发共振。近日,Anthropic——作为 Claude 的开发者与 OpenAI 的头号竞争对手,与博通签订了价值高达210亿美元的 TPU 订单。这一巨额订单标志着以谷歌 TPU 为代表的 ASIC 芯片,从技术探索进入到大规模商业部署阶段。不难推断出 Anthropic 背后的商业考量:若能通过 TPU v7降低30–40%的单位推理成本,在其月度千亿级别的API调用规模下,意味着每年可能带来数十亿美元的利润改善。

这种成本优势甚至成为了博弈筹码。半导体行业研究机构 SemiAnalysis 透露,OpenAI 仅凭“威胁购买 TPU”这一筹码,就迫使英伟达生态链做出了实质性让步,使其计算集群的总拥有成本(TCO)下降了约30%。可以说,英伟达随后对 Groq 核心推理技术的获取以及对其核心人员的招募,也是面对这种新趋势的一种防守之策。

行业变革的齿轮,在成本的重压下,悄然加速转动。从“通用算力竞赛”进入了“能效比对决”时代,以 TPU 为代表的 ASIC 已然崛起,成为头部AI玩家在英伟达之外的第二选择。

TPU 站上舞台中央背后

ASIC 并非新鲜事物。早在 GPU 大红大紫之前,市场上就已经就 FPGA 和 ASIC 的优劣势有了很多的讨论。但在 GPU 统治算力的时代,谷歌 TPU 能成功冲击英伟达筑起的高墙,并非偶然,而是源于其对专用计算的极致追求。

与兼顾通用性的 GPU 不同,TPU采取了极其精简的架构设计:果断砍掉与AI推理无关的图形处理单元,将宝贵的晶体管资源集中于大模型最核心的矩阵运算。

更重要的是,TPU 引入了独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少了对寄存器的频繁读写。配合大容量片上 SRAM 缓存与高效的数据搬运引擎 DMA,TPU 显著降低了“数据搬运”这一主要能耗瓶颈。



脉动阵列示意图:数据在计算单元(PE)阵列中流动

然而,长期以来,英伟达凭借“软硬一体”的封闭生态和深厚的 CUDA 护城河,仍然掌握着AI时代的定价权。对于客户而言,迁移至其他芯片平台需要付出高昂的软件适配成本。

打破这种路径依赖,谷歌采取了“硬件进化、软件开源”的双重攻势:其 XLA 编译技术,不仅支持谷歌系的 TensorFlow 和 JAX 框架,也能适配主流开源框架 PyTorch(该框架在全球机器学习开发应用中占比超过80%)。谷歌联合多家科技巨头发起的 OpenXLA 开源项目,打通了从多框架模型到不同硬件的统一编译路径;近期与 Meta 合作推进 TorchTPU 项目,实现 TPU 对 PyTorch 的原生支持,使开发者可将 PyTorch 模型无缝迁移至 TPU。



OpenXLA 开源项目

在AI计算从“算力堆叠”转向效率与规模并重的趋势下,通过精简架构、脉动阵列、片上大缓存与数据搬运引擎等硬件创新,再结合软硬件协同的开源生态构建,谷歌 TPU 逐渐构筑起在推理场景下的独特优势。

在这场关乎 Token 成本的“AI下半场”,中国芯片企业并未缺席。观察过去几年的行业轨迹,包括奕行智能在内的本土厂商,长期致力于开发兼顾通用性与专用性的架构,为AI算力的多样化竞争提供了底层支撑。

一家本土芯片厂商的不谋而合

回看奕行智能的发展历程与当前取得的结果,笔者认为,这与他们从成立伊始就一直坚持打造AI技术底座、做AI算力底层赋能者有着莫大的关系。自成立以来,公司在软硬件以及生态等多个方向上全面布局,与 TPU 及 DSA(ASIC)的演进趋势不谋而合。

在硬件层面,奕行智能采用类 TPU 架构,其矩阵、向量、标量的精简架构设计,完全匹配大模型的计算特点,显著降低了传统 GPGPU 架构中用于调度与资源分配的额外开销(包含算力、带宽、编程投入等,通常占总开销的10%-20%),有效提高能效比与面积效率,打满算力。

其大尺寸矩阵运算引擎,采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少了数据前处理的开销。相比同类方案,编程也更为简单易用,限制更少——例如几乎无需为规避bank冲突特意做手动编排,能够直接支持模型中开发难度大的卷积矩阵乘算子等。

面对AI计算中频繁出现的4D数据,奕行智能的高性能4D DMA引擎展现出明显优势。相比竞品往往需要多次数据搬移与处理,该引擎仅通过一次操作即可完成4D数据的整体搬移,并在过程中同步完成数据变换与重排。此外,通过配置大容量片上缓存,将热点与关键数据置于 L1/L2 中,其访问速度相比存放在 DDR 的方案提升1–2个数量级。其近存计算设计,让产品在实测中 Flash Attention 关键算子利用率相比竞品提升4.5倍。

其架构设计的另一亮点,在于率先引入了 RISC-V+RVV(向量扩展)指令集,并率先支持 RVV 1024 bit 位宽,精准捕捉了 RISC-V 向AI计算拓展的机遇。近年来,随着性能提升与生态成熟,RISC-V 已经迈出了从嵌入式市场向数据中心市场的关键一步。谷歌也在 TPU 中集成了 RISC-V 处理器,结合 RVV 向量扩展,实现了AI专用加速与灵活、可编程的 RISC-V 核心的高效协同。

在奕行智能的架构中,图灵完备的 RISC-V 指令集保障了通用的计算能力,模块化设计支持扩展专用AI计算指令,支持其自定义高效的张量计算加速、超越函数、数据搬运等指令。同时,RVV 原生支持复杂向量计算,支持多种数据类型的混合精度计算。

基于类 TPU 架构+ RISC-V 的底座,该公司推出了国内业界首款 RISC-V AI算力芯片 Epoch。该系列产品及计算平台解决方案于2025年启动量产,目前在头部系统厂商、互联网,数据中心及行业客户,均获得了商业突破,斩获大额商业订单,大规模量产出货中。



精度演进:低位宽与高精度的平衡艺术

“低位宽、高精度”的数据格式支持,已成为近年来行业突破能效瓶颈的关键路径之一。在深度学习领域,数据精度与计算效率始终存在权衡关系。例如,TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度。以Ironwood(TPU v7)为例,其FP8峰值算力达到4.6PetaFLOPS,而BF16仅为2.3PFLOPS。显存占用和通信数据量也同步减半。

从谷歌 TPU v2 首次引入 BF16,到 DeepSeek 提出分块量化 FP8,以及英伟达发布 NVFP4,采用16元素共享缩放因子并以 FP8 作为缩放数据类型,使4bit精度几乎逼近 BF16水准……这些创新都指向一个共同逻辑:压缩数据位宽能显著释放性能红利,同时保持高精度以保持大模型的“智能”不退化,则直接关系到AI芯片的商业化落地可行性。

奕行智能的AI芯片,除了支持传统的多种浮点及整型数据类型以外,还在国内率先支持DeepSeek 所需的基于分块量化的FP8计算精度,并在其新一代产品支持 NVFP4、MXFP4、MXFP8、MXINT8 等前沿的数据格式,可高效释放算力,大幅降低存储开销。

本质上,“拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了向量算力与矩阵算力吞吐的双重增长与存储成本的下降。上述技术创新精准对标了 DeepSeek 与英伟达引领的技术方向,契合深度学习演进趋势。

超越芯片:软件与生态的协同进化

得益于上述设计,奕行智能在当前 token 成本竞争激烈中更游刃有余。然而,仅靠芯片创新不足以在竞争激烈的市场中突围,还需要再软件和生态上多下功夫,这与国内过去一直在探讨如何突破CUDA包围圈、构建自主计算生态一脉相承。

在软件栈,该公司深度融合了谷歌开源的 StableHLO 和 XLA 技术,全面支持 PyTorch、TensorFlow、JAX、ONNX 等主流框架。其智能编译器ACE(Advanced Compute Engine)已接入 OpenXLA 体系,可无缝迁移至 TorchTPU 方案,让 PyTorch 开发者能够近乎“零代码修改”地实现模型迁移。



针对 AI 场景数据规则化的特点,奕行智能还推出了原生适配 Tile(分块)的动态调度架构。该架构通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂的指令依赖、流水线管理和内存切分交由硬件自动完成。这不仅让编程变得像“拼积木”一样干净简洁,更打破了传统静态优化的性能上限,实现了对并行算力的实时、极致压榨。

其独创的VISA虚拟指令集技术,就像是在复杂的硬件森林和上层软件之间架起了一座“标准翻译桥梁”,让开发者不再需要为每一颗芯片“贴身肉搏”写底层代码。



在生态构建上,奕行智能正与 Triton 社区推进重要合作,将 Triton 编译流引入 RISC-V DSA 后端,并计划开源其虚拟指令集,共同打造面向 RISC-V DSA 的“CUDA式”开发生态。

这种从底层硬件架构到软件生态的全面对标与自主创新,使奕行智能不仅在技术路线上成为了“中国 TPU”的代表,更在未来的 Token 成本竞争中占据了有利市场身位。

写在最后:全栈竞争时代已至

无论是奕行智能等国内新兴力量,还是英伟达、谷歌、AMD 等国际巨头,持续提升单芯片性能始终是业界公认的方向。

然而随着行业对 token 成本的日益关注,竞争焦点正从单纯追求算力规模,转向通过提升算力利用率与能效来降低成本——这不仅是技术演进,更是实现商业价值的关键路径。

在这一范式转变下,“算力竞争”已不再局限于单一芯片的性能较量,而是升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争。

以英伟达为例,其能够成为行业领导者,不仅得益于强大的 GPU 硬件与 CUDA 生态,其高速互联技术 NVLink 同样功不可没。惊艳业界的 GB200 NVL72 系统,正是依托 NVLink 实现高效的 Scale Up 互联架构。

Scale Up 将多个计算节点像单颗芯片内部单元一样紧密互联协同,对于互联带宽、传输延迟及系统容错性都提出了极高要求。奕行智能自研的互联技术方案 ELink,同样支持超大带宽与超低延迟的 Scale Up 扩展,成为其构建算力效率护城河的关键一环。

而在传统AI大规模计算中,归约运算往往需要将大量数据在计算卡间搬运,对互联带宽和延迟有着非常高的要求。前沿的在网计算技术,可将部分计算卸载至网络交换节点,从而减轻带宽负担,降低通信延迟。ELink 配合交换侧,已实现对这一前沿在网计算功能的支持。

此外,ELink 在兼容性与灵活性上也展现出充分的竞争力:全面支持 RoCEv2、SUE(博通提出)、EthLink(字节跳动提出)、C-Link 等主流互联协议,能与支持上述协议的交换设备及芯片无缝高效互联,并支持800G/400G/200G可配置以太网标准协议。



ELink互联技术 支持丰富的互联拓扑

ELink互联方案的任意点对点带宽(P2P带宽),可以达到传统互联方案的7倍,根据不同的组网方案单节点聚合带宽则可以达到14.2倍,有效支持大模型的高速推理。



AI算力竞争正从“谁算得更快”转向“谁算得更省”。这场竞争的核心不仅是技术维度从性能到能效的转移,更是整个行业商业逻辑的深刻重塑。英伟达虽仍是市场的主导者,但在推理等专用场景中,以TPU为代表的专用架构已崛起为有力的挑战者。

在此变局之中,国内AI芯片企业也找到了属于自己的突破口。凭借“对标前沿技术布局,融入成熟开源生态,同时以自主创新构建核心壁垒”的组合策略,奕行智能正在这场AI基础设施的全栈竞争中稳步突围。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全身爱马仕的马筱梅生完孩子却改穿三百块抖音套装

全身爱马仕的马筱梅生完孩子却改穿三百块抖音套装

小邵说剧
2026-05-08 14:12:34
胜利日停火期间俄军将在特别军事行动区域完全停止作战行动

胜利日停火期间俄军将在特别军事行动区域完全停止作战行动

极目新闻
2026-05-08 00:48:04
罪有应得!以色列,正被全世界集体孤立!

罪有应得!以色列,正被全世界集体孤立!

毛豆论道
2026-05-05 17:35:52
武汉大学教授柯涛逝世,终年48岁

武汉大学教授柯涛逝世,终年48岁

极目新闻
2026-05-08 08:18:13
“万人迷”豆包,这回踢到铁板上了

“万人迷”豆包,这回踢到铁板上了

金错刀
2026-05-08 09:40:44
8日世乒赛:周启豪不上,王楚钦发文,林诗栋迎挑战,直播有变

8日世乒赛:周启豪不上,王楚钦发文,林诗栋迎挑战,直播有变

老嗮说体育
2026-05-08 07:32:59
天津某山姆最毁三观的一幕,炸出多少“白嫖上瘾”的病态群体

天津某山姆最毁三观的一幕,炸出多少“白嫖上瘾”的病态群体

小椰子专栏
2026-05-07 13:03:07
李道豫同志逝世

李道豫同志逝世

新京报政事儿
2026-05-07 17:12:03
德国“白左”狂欢:斩断能源自掘坟墓

德国“白左”狂欢:斩断能源自掘坟墓

小眼睛小世界
2026-05-07 06:21:41
再见了,塔克!总冠军+9058万美金到手,别怪NBA对你无情

再见了,塔克!总冠军+9058万美金到手,别怪NBA对你无情

世界体育圈
2026-05-08 14:53:15
76万亿定存集中到期!利率从3.5%跌到1.25%,银行慌了储户醒了

76万亿定存集中到期!利率从3.5%跌到1.25%,银行慌了储户醒了

老特有话说
2026-05-07 15:18:13
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
美3艘军舰成功驶出海峡、伊朗没拦住,川普称不签协议就继续打

美3艘军舰成功驶出海峡、伊朗没拦住,川普称不签协议就继续打

邵旭峰域
2026-05-08 10:02:59
豆包开始崩老头了

豆包开始崩老头了

蓝钻故事
2026-05-07 01:41:58
深度 | 尼泊尔要求我国尊重领土主张?还是先尊重我国阿克赛钦和藏南领土吧

深度 | 尼泊尔要求我国尊重领土主张?还是先尊重我国阿克赛钦和藏南领土吧

南亚研究通讯
2026-05-07 23:00:05
生下三胎仅6个月,方媛官宣喜讯,全网恭喜,让郭富城也始料未及

生下三胎仅6个月,方媛官宣喜讯,全网恭喜,让郭富城也始料未及

一盅情怀
2026-05-08 10:58:52
不敢相信!一个落选秀,首次打季后赛,三分命中率58%

不敢相信!一个落选秀,首次打季后赛,三分命中率58%

球毛鬼胎
2026-05-08 13:06:01
“出租车司机狂喷打车学生4分钟”,太原通报:顶格处罚

“出租车司机狂喷打车学生4分钟”,太原通报:顶格处罚

观察者网
2026-05-08 12:20:07
世乒赛一夜之间,欧洲2队全出局!亚洲3队进四强,国乒战韩国变阵

世乒赛一夜之间,欧洲2队全出局!亚洲3队进四强,国乒战韩国变阵

侃球熊弟
2026-05-08 08:38:36
5月20官宣三婚!头发都白了,何洁现状惹人心疼

5月20官宣三婚!头发都白了,何洁现状惹人心疼

陈意小可爱
2026-05-07 16:55:39
2026-05-08 15:40:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13619文章数 34907关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

健康
数码
本地
教育
旅游

干细胞治烧烫伤面临这些“瓶颈”

数码要闻

荣耀MagicOS五月更新上线:新增支持AirPods互联等

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

体育是“五育并举”的重要基石。在甘肃省陇南市武都区莲湖小学,新近引入的智慧体育设施让教学工具得到升级...

旅游要闻

枣庄山亭初夏草木葱茏 山花盛放迎客来

无障碍浏览 进入关怀版