从“更快”到“更省”：AI下半场，TPU重构算力版图|谷歌|英伟达|gpu|cuda|risc|知名企业|人工智能模型

分享至

当谷歌的大模型 Gemini 3 在2025年末以惊人的多模态处理速度和极低的延迟震撼业界时，外界往往将目光聚焦于算法的精进。然而，真正的功臣正沉默地跳动在谷歌数据中心的机架上——那就是他们潜研10年的 TPU (Tensor Processing Unit)。

长期以来，英伟达凭借其“通用而强大”的 GPU 统治了模型训练的黄金时代。但随着大模型走进规模化应用爆发期，算力逻辑正发生本质改变：“训练为王”的旧秩序正在瓦解，“推理为王”的新时代已经降临。

当专用架构的极致效率突破了通用架构的冗余局限，以 TPU 为代表的 ASIC 芯片正以不可阻挡之势，从英伟达手中接过主角的剧本，重塑全球AI算力的权力版图。

成本为王，芯片变了

这些年，在海内外厂商的共同推动下，大模型和人工智能成为了几乎人尽皆知的热词。所谓大模型，其诞生有点像一个人的成长：先通过预训练“博览群书”，在海量文本中学习语言结构和世界知识；再通过指令微调，学会如何按人类要求组织和表达回答；接着借助基于人类反馈的强化学习，对齐输出风格与边界，使回答更符合人类偏好；最后经过压缩和工程优化部署到服务器上，在与用户交互时实时解析输入，并以逐词预测的方式生成答案。

其中，预训练、微调和强化学习这三个阶段，就是我们常说的“训练”阶段。在这个阶段，谁能更快搭建起大模型，谁就能抢占话语权。基础设施面临着高算力、高显存带宽以及极强多卡互联的需求，以支撑万亿级参数背后的海量矩阵运算和数据同步。凭借高性能的 GPU、CUDA 生态和 NVLink 高速互联技术，英伟达成为了这个阶段毫无争议的赢家。

而在大模型训练完成后，真正的商业价值来自于规模化的推理服务。模型每天要处理数十亿次用户请求，推理成本的高低直接决定了每一次 API 调用的利润空间。此时的核心议题，不再只是能否训练模型，而是能否在保证性能的前提下，降低每一次推理的成本。

因为无论是 OpenAI 还是国产大模型，其核心商业模式都是按每百万 Token 计费。只有不断降低单个 Token 的成本，并提升其生成质量与可靠性，才能使得AI像电力一样，以可负担的成本渗透进各行各业的实时对话、决策与创作场景中。这也是今年下半年以来，大家对 Token per dollar（每美元产出的 Token 量）的关注度空前增长的原因。

在这种“成本为王”的背景下，算力竞争版图正在重塑,高盛最近的一份报告指出，以谷歌TPU 为代表的专用架构正成为强有力的挑战者。报告数据显示，从 TPU v6到 TPU v7，谷歌已将每百万 token 的推理成本降低了约70%；英伟达的 GB 200 NVL72 每百万 token 的推理成本约为 0.27 美元，而谷歌的 TPU v7 在同样的任务负载下，成本已经降至相当甚至更优的水平。尽管英伟达仍毫无疑问是市场的主要参与者，其芯片成本曲线还将继续下行，但 TPU v7 的快速赶超甚至局部超越，则标志着算力竞争格局的转折点已经到来。

成本曲线的陡峭下行，也在现实世界引发共振。近日，Anthropic——作为 Claude 的开发者与 OpenAI 的头号竞争对手，与博通签订了价值高达210亿美元的 TPU 订单。这一巨额订单标志着以谷歌 TPU 为代表的 ASIC 芯片，从技术探索进入到大规模商业部署阶段。不难推断出 Anthropic 背后的商业考量：若能通过 TPU v7降低30–40%的单位推理成本，在其月度千亿级别的API调用规模下，意味着每年可能带来数十亿美元的利润改善。

这种成本优势甚至成为了博弈筹码。半导体行业研究机构 SemiAnalysis 透露，OpenAI 仅凭“威胁购买 TPU”这一筹码，就迫使英伟达生态链做出了实质性让步，使其计算集群的总拥有成本（TCO）下降了约30%。可以说，英伟达随后对 Groq 核心推理技术的获取以及对其核心人员的招募，也是面对这种新趋势的一种防守之策。

行业变革的齿轮，在成本的重压下，悄然加速转动。从“通用算力竞赛”进入了“能效比对决”时代，以 TPU 为代表的 ASIC 已然崛起，成为头部AI玩家在英伟达之外的第二选择。

TPU 站上舞台中央背后

ASIC 并非新鲜事物。早在 GPU 大红大紫之前，市场上就已经就 FPGA 和 ASIC 的优劣势有了很多的讨论。但在 GPU 统治算力的时代，谷歌 TPU 能成功冲击英伟达筑起的高墙，并非偶然，而是源于其对专用计算的极致追求。

与兼顾通用性的 GPU 不同，TPU采取了极其精简的架构设计：果断砍掉与AI推理无关的图形处理单元，将宝贵的晶体管资源集中于大模型最核心的矩阵运算。

更重要的是，TPU 引入了独特的脉动阵列架构，让数据如流水般在计算单元间连续流动，大幅减少了对寄存器的频繁读写。配合大容量片上 SRAM 缓存与高效的数据搬运引擎 DMA，TPU 显著降低了“数据搬运”这一主要能耗瓶颈。

脉动阵列示意图：数据在计算单元（PE）阵列中流动

然而，长期以来，英伟达凭借“软硬一体”的封闭生态和深厚的 CUDA 护城河，仍然掌握着AI时代的定价权。对于客户而言，迁移至其他芯片平台需要付出高昂的软件适配成本。

打破这种路径依赖，谷歌采取了“硬件进化、软件开源”的双重攻势：其 XLA 编译技术，不仅支持谷歌系的 TensorFlow 和 JAX 框架，也能适配主流开源框架 PyTorch（该框架在全球机器学习开发应用中占比超过80%）。谷歌联合多家科技巨头发起的 OpenXLA 开源项目，打通了从多框架模型到不同硬件的统一编译路径；近期与 Meta 合作推进 TorchTPU 项目，实现 TPU 对 PyTorch 的原生支持，使开发者可将 PyTorch 模型无缝迁移至 TPU。

OpenXLA 开源项目

在AI计算从“算力堆叠”转向效率与规模并重的趋势下，通过精简架构、脉动阵列、片上大缓存与数据搬运引擎等硬件创新，再结合软硬件协同的开源生态构建，谷歌 TPU 逐渐构筑起在推理场景下的独特优势。

在这场关乎 Token 成本的“AI下半场”，中国芯片企业并未缺席。观察过去几年的行业轨迹，包括奕行智能在内的本土厂商，长期致力于开发兼顾通用性与专用性的架构，为AI算力的多样化竞争提供了底层支撑。

一家本土芯片厂商的不谋而合

回看奕行智能的发展历程与当前取得的结果，笔者认为，这与他们从成立伊始就一直坚持打造AI技术底座、做AI算力底层赋能者有着莫大的关系。自成立以来，公司在软硬件以及生态等多个方向上全面布局，与 TPU 及 DSA（ASIC）的演进趋势不谋而合。

在硬件层面，奕行智能采用类 TPU 架构，其矩阵、向量、标量的精简架构设计，完全匹配大模型的计算特点，显著降低了传统 GPGPU 架构中用于调度与资源分配的额外开销（包含算力、带宽、编程投入等，通常占总开销的10%-20%），有效提高能效比与面积效率，打满算力。

其大尺寸矩阵运算引擎，采用类TPU的双脉动流水设计，数据复用率提升数倍，且显著减少了数据前处理的开销。相比同类方案，编程也更为简单易用，限制更少——例如几乎无需为规避bank冲突特意做手动编排，能够直接支持模型中开发难度大的卷积矩阵乘算子等。

面对AI计算中频繁出现的4D数据，奕行智能的高性能4D DMA引擎展现出明显优势。相比竞品往往需要多次数据搬移与处理，该引擎仅通过一次操作即可完成4D数据的整体搬移，并在过程中同步完成数据变换与重排。此外，通过配置大容量片上缓存，将热点与关键数据置于 L1/L2 中，其访问速度相比存放在 DDR 的方案提升1–2个数量级。其近存计算设计，让产品在实测中 Flash Attention 关键算子利用率相比竞品提升4.5倍。

其架构设计的另一亮点，在于率先引入了 RISC-V+RVV（向量扩展）指令集，并率先支持 RVV 1024 bit 位宽，精准捕捉了 RISC-V 向AI计算拓展的机遇。近年来，随着性能提升与生态成熟，RISC-V 已经迈出了从嵌入式市场向数据中心市场的关键一步。谷歌也在 TPU 中集成了 RISC-V 处理器，结合 RVV 向量扩展，实现了AI专用加速与灵活、可编程的 RISC-V 核心的高效协同。

在奕行智能的架构中，图灵完备的 RISC-V 指令集保障了通用的计算能力，模块化设计支持扩展专用AI计算指令，支持其自定义高效的张量计算加速、超越函数、数据搬运等指令。同时，RVV 原生支持复杂向量计算，支持多种数据类型的混合精度计算。

基于类 TPU 架构+ RISC-V 的底座，该公司推出了国内业界首款 RISC-V AI算力芯片 Epoch。该系列产品及计算平台解决方案于2025年启动量产，目前在头部系统厂商、互联网，数据中心及行业客户，均获得了商业突破，斩获大额商业订单，大规模量产出货中。

精度演进：低位宽与高精度的平衡艺术

“低位宽、高精度”的数据格式支持，已成为近年来行业突破能效瓶颈的关键路径之一。在深度学习领域，数据精度与计算效率始终存在权衡关系。例如，TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度。以Ironwood（TPU v7）为例，其FP8峰值算力达到4.6PetaFLOPS，而BF16仅为2.3PFLOPS。显存占用和通信数据量也同步减半。

从谷歌 TPU v2 首次引入 BF16，到 DeepSeek 提出分块量化 FP8，以及英伟达发布 NVFP4，采用16元素共享缩放因子并以 FP8 作为缩放数据类型，使4bit精度几乎逼近 BF16水准……这些创新都指向一个共同逻辑：压缩数据位宽能显著释放性能红利，同时保持高精度以保持大模型的“智能”不退化，则直接关系到AI芯片的商业化落地可行性。

奕行智能的AI芯片，除了支持传统的多种浮点及整型数据类型以外，还在国内率先支持DeepSeek 所需的基于分块量化的FP8计算精度，并在其新一代产品支持 NVFP4、MXFP4、MXFP8、MXINT8 等前沿的数据格式，可高效释放算力，大幅降低存储开销。

本质上，“拓宽数据通道”（支持RVV 1024 bit位宽）与“压缩信息体积”（支持低位宽浮点精度）的双重组合，带来了向量算力与矩阵算力吞吐的双重增长与存储成本的下降。上述技术创新精准对标了 DeepSeek 与英伟达引领的技术方向，契合深度学习演进趋势。

超越芯片：软件与生态的协同进化

得益于上述设计，奕行智能在当前 token 成本竞争激烈中更游刃有余。然而，仅靠芯片创新不足以在竞争激烈的市场中突围，还需要再软件和生态上多下功夫，这与国内过去一直在探讨如何突破CUDA包围圈、构建自主计算生态一脉相承。

在软件栈，该公司深度融合了谷歌开源的 StableHLO 和 XLA 技术，全面支持 PyTorch、TensorFlow、JAX、ONNX 等主流框架。其智能编译器ACE（Advanced Compute Engine）已接入 OpenXLA 体系，可无缝迁移至 TorchTPU 方案，让 PyTorch 开发者能够近乎“零代码修改”地实现模型迁移。

针对 AI 场景数据规则化的特点，奕行智能还推出了原生适配 Tile（分块）的动态调度架构。该架构通过“虚拟指令+智能编译器+硬件调度器”的闭环，将复杂的指令依赖、流水线管理和内存切分交由硬件自动完成。这不仅让编程变得像“拼积木”一样干净简洁，更打破了传统静态优化的性能上限，实现了对并行算力的实时、极致压榨。

其独创的VISA虚拟指令集技术，就像是在复杂的硬件森林和上层软件之间架起了一座“标准翻译桥梁”，让开发者不再需要为每一颗芯片“贴身肉搏”写底层代码。

在生态构建上，奕行智能正与 Triton 社区推进重要合作，将 Triton 编译流引入 RISC-V DSA 后端，并计划开源其虚拟指令集，共同打造面向 RISC-V DSA 的“CUDA式”开发生态。

这种从底层硬件架构到软件生态的全面对标与自主创新，使奕行智能不仅在技术路线上成为了“中国 TPU”的代表，更在未来的 Token 成本竞争中占据了有利市场身位。

写在最后：全栈竞争时代已至

无论是奕行智能等国内新兴力量，还是英伟达、谷歌、AMD 等国际巨头，持续提升单芯片性能始终是业界公认的方向。

然而随着行业对 token 成本的日益关注，竞争焦点正从单纯追求算力规模，转向通过提升算力利用率与能效来降低成本——这不仅是技术演进，更是实现商业价值的关键路径。

在这一范式转变下，“算力竞争”已不再局限于单一芯片的性能较量，而是升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争。

以英伟达为例，其能够成为行业领导者，不仅得益于强大的 GPU 硬件与 CUDA 生态，其高速互联技术 NVLink 同样功不可没。惊艳业界的 GB200 NVL72 系统，正是依托 NVLink 实现高效的 Scale Up 互联架构。

Scale Up 将多个计算节点像单颗芯片内部单元一样紧密互联协同，对于互联带宽、传输延迟及系统容错性都提出了极高要求。奕行智能自研的互联技术方案 ELink，同样支持超大带宽与超低延迟的 Scale Up 扩展，成为其构建算力效率护城河的关键一环。

而在传统AI大规模计算中，归约运算往往需要将大量数据在计算卡间搬运，对互联带宽和延迟有着非常高的要求。前沿的在网计算技术，可将部分计算卸载至网络交换节点，从而减轻带宽负担，降低通信延迟。ELink 配合交换侧，已实现对这一前沿在网计算功能的支持。

此外，ELink 在兼容性与灵活性上也展现出充分的竞争力：全面支持 RoCEv2、SUE（博通提出）、EthLink（字节跳动提出）、C-Link 等主流互联协议，能与支持上述协议的交换设备及芯片无缝高效互联，并支持800G/400G/200G可配置以太网标准协议。

ELink互联技术支持丰富的互联拓扑

ELink互联方案的任意点对点带宽（P2P带宽），可以达到传统互联方案的7倍，根据不同的组网方案单节点聚合带宽则可以达到14.2倍，有效支持大模型的高速推理。

AI算力竞争正从“谁算得更快”转向“谁算得更省”。这场竞争的核心不仅是技术维度从性能到能效的转移，更是整个行业商业逻辑的深刻重塑。英伟达虽仍是市场的主导者，但在推理等专用场景中，以TPU为代表的专用架构已崛起为有力的挑战者。

在此变局之中，国内AI芯片企业也找到了属于自己的突破口。凭借“对标前沿技术布局，融入成熟开源生态，同时以自主创新构建核心壁垒”的组合策略，奕行智能正在这场AI基础设施的全栈竞争中稳步突围。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.