DeepSeek来了，万卡还是AI入场券吗？|算法|gpu|deepseek

分享至

文 | 半导体产业纵横

人工智能的极限就是拼卡的极限。顶级AI公司为这场“暴力美学”竞赛设定了单点集群万卡的门槛。

OpenAI的单点集群5万张卡，谷歌2.6万张卡，Meta2.45万张卡。摩尔线程创始人兼CEO张建中曾在发布会上表示，“AI主战场，万卡是最低标配。”

而随着DeepSeek的横空出世，一场关于AI规则重写的大戏正在上演。

01 万卡集群还是AI入场券吗？

2020年，微软率先构建了万卡智算中心用来其AI布局，随后各大科技巨头竞相投入万卡集群的智算中心建设，例如亚马逊、谷歌、Meta、特斯拉、xAI，国内科技公司字节跳动、百度、蚂蚁、华为、科大讯飞、小米都建设了万卡集群，腾讯、阿里已经卷向十万卡集群。

搭建万卡集群的智算中心需要耗费巨大的财力，单是GPU的采购成本就高达几十亿元。尽管造价高昂，但“万卡集群”智算中心使得训练复杂的大模型成为可能，因此被业界视作AI竞赛的“入场券”。

长江证券在其研报中指出，“模型大小和训练数据量大小成为决定模型能力的关键因素。在同等模型参数和数据集下，集群训练时间有望显著缩短。更大、更先进的集群能及时对市场趋势作出反应，快速进行迭代训练。整体上超万卡的集群将有助于压缩大模型训练时间，实现模型能力的快速迭代，并及时对市场趋势作出应对，实现大模型技术上的追赶和领先。”

而DeepSeek-V3在训练时仅仅使用了2048个H800 GPU，但是在多个标准测试中却获得了很不错的消息，在数学基准测试GSM8K和MATH、算法类代码LiveCodeBench等测试中超越此前的大模型拔得头筹。这不由引发了一个思考，DeepSeek支持千卡级集群训练，那么万卡智算中心还是AI入场券吗？

首先，我们必须要承认万卡集群在大模型训练端仍有必要性，其次，大模型私有化部署已成业内共识，企业私有部署小型数据中心市场将会爆发。

DeepSeek出现之后，众多公司都在争相接入，做自己的本地部署。企业建设“自己的小型智算中心”，部署1~10台服务器（百卡之内），或10来20台服务器（百卡规模），也可以实现高效的AI业务。这无疑让AI入场券发生了变化，“暴力堆卡”不再是唯一进场方式，更多的企业可以通过算法优化参与到这场AI热潮中。

以华为和瑞金医院合作发布的临床级多模态互动式病理大模型RuiPath为例，仅仅使用了16张算力卡，就学习了300余本病理诊断书籍，在病理医生整理的常用问题测试中问答准确率可到90%。

高通技术认为，当前先进的AI小模型已具有卓越性能。模型蒸馏和新颖的AI网络架构等新技术能够在不影响质量的情况下简化开发流程，让新模型的表现超越一年前推出的仅能在云端运行的更大模型。

除此之外，企业部署小型智算中心也为四大运营商和铁塔公司带来了新的机遇。小型数据中心的部署需要稳定的场地、电力、网络等基础设施，而运营商和铁塔公司的物理机房资源是现成的，以中国铁塔为例，目前拥有210万站址资源、能源设施和近百万处机房，并有22万“通信塔”已升级为“数字塔”。另外，小型数据中心靠近数据产生源头，可实现数据的快速处理和分析，对于边缘算力的需求增加，目前中国铁塔算力正从集中式向“云边端”分布式范式转变，每个数据中心每日新增数据量数十T，预计2025年每数据中心接入约二十万站，未来数据规模将达数十PB级别。

根据Gartner预测，2025年75%的企业数据将在边缘侧处理，边缘数据中心数量将超过传统数据中心的3倍。

02 数据中心芯片变革：训练降速，推理崛起

DeepSeek 采用纯强化学习训练路径，摆脱了对监督学习微调阶段的依赖，同时采用全新的 GRPO 算法让模型群体相互学习，将内存消耗降低至传统 PPO 算法的三分之一，可在更少硬件资源下完成训练；FP8 混合精度训练，内存占用减少 50%，计算吞吐量提升 30%；其数据蒸馏技术，将无效数据比例从行业平均 15% 降至 3% 以下；NVLink+InfiniBand 双通道传输技术使得集群内部的GPU通信效率提升了 65%。

DeepSeek这些创新性的方法降低了训练成本，使得数据中心芯片发生变革，未来训练端的高端GPU需求增速可能放缓，而推理端的算力需求将长期呈增长趋势。

对此，各大研究机构的判断不谋而合。其中，Gartner 预测2025年推理的集群算力规模将超过训练，IDC预测到 2025 年用于推理的工作负载的芯片将达到60.8%。TrendForce集邦咨询分析师龚明德指出：“DeepSeek的驱动将促使云服务商更积极投入低成本的自有ASIC方案，并从AI训练重心转向AI推理。预计到2028年，推理芯片占比将提升至五成。”

顾名思义，训练芯片是应用在AI模型的训练阶段，需要通过大量标记过的数据来训练系统以适应特定功能，因此更强调计算性能和存储能力，而推理芯片在模型训练完成后，负责使用新数据进行预测和推断，更注重单位能耗算力、时延和成本的综合指标。

与英伟达市占率98%的训练芯片市场不同，推理芯片市场还未成熟，更加百花齐放。此前在网上掀起一阵热潮的美国人工智能芯片公司Groq，其成立于2016年，到目前为止已经获得了5轮融资，2024年8月Groq完成6.4亿美元的最新一轮融资后，估值达到28亿美元。Groq专为大语言量身定制的新型AI加速芯片LPU，性能表现比常规的GPU和TPU提升10到100倍，推理速度达到了英伟达GPU的10倍。

在国外市场，博通和Marvell是主要的推理芯片供应商。其中，博通与谷歌合作设计了六代 TPU，预计将在 2026、2027年推出的第七代 TPU，同时其与Meta在AI基础设施方面的合作可能会达到数十亿美元；Marvell则是与亚马逊、谷歌和微软合作，目前正在生产亚马逊5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片，同时预计在2025年启动亚马逊 Inferentia芯片项目，2026年启动微软Maia芯片项目。

在国内市场，各大科技公司也在积极布局AI推理芯片市场。

达摩院推出的含光800 AI芯片，单芯片性能是谷歌TPU v3的8.5 倍、英伟达T4的12倍。
百度昆仑系列AI芯片，率先支持8bit推理，百舸DeepSeek一体机搭载昆仑芯 P800，推理延迟低，平均50毫秒以内，其中昆仑3A超越英伟达A800。
寒武纪的思元590智能芯片，几乎支持所有主流模型，单卡算力超过英伟达A100，集群算力接近A100水平，千卡互联的集群会再损失一些性能。

目前，大模型推理阶段面临很多优化挑战，首先就是KV Cache管理，推理过程会产生大量中间结果用于降低计算量。如何管理这些数据很关键，例如采用页面式管理，但页面大小是固定还是根据负载特征动态调整，都需要仔细设计。其次是多卡协同：当模型较大时需要多 GPU 配合，例如在8个GPU上进行大模型推理，如何优化卡间并行也是一大挑战。最重要的就是算法优化：如何从量化等角度进行优化，充分发挥底层算力性能。

03 算法补性能：芯片竞争开始卷“软硬协同”

DeepSeek之所以能够以2048个H800芯片惊艳世界，其中的重要原因之一是其对硬件进行了极致工程化改造，通过自定义 CUDA 内核和算子融合技术，将 H800 GPU 的 MFU（模型 FLOP 利用率）提升至 23%，远超行业平均 15% 的水平，在相同硬件条件下可完成更多计算任务，提升训练效率，并且在GPU集群上实现了98.7%的持续利用率。

这种创新性的用算法补性能方式，被复旦大学复杂体系多尺度研究院院长、上海人工智能实验室领军科学家、国际著名计算生物学家马剑鹏教授称为“中国AI的换道超车”。同时，这种方式也将倒逼芯片厂商从“拼制程”转向“算法适配性”设计，预留更多接口支持动态算法迭代，如可编程NPU架构。

众所周知，AI用例正在不断演进，要在功能完全固定的硬件上部署这些用例显然是不切实际的。而可编程 NPU 架构提供丰富编程接口和开发工具，支持多种编程语言和框架，开发者可方便地根据新算法需求进行编程和配置。同时，支持根据不同算法需求动态重构计算资源，如计算单元、存储单元等等。

最重要的是，芯片研发成本高，预留接口支持动态算法迭代可使芯片在较长时间内保持竞争力，面对新算法无需重新设计硬件，而是通过软件升级等方式来适配新算法，再也不惧算法更新迭代。

DeepSeek V3中使用了相比CUDA更底层的PTX来优化硬件算法，绕过了CUDA的高层 API，直接操作PTX指令集进行更细粒度的硬件优化，能在一定程度上摆脱对 CUDA 高层框架的依赖，为开发者提供了不依赖 CUDA 进行 GPU 资源优化的途径。同时，DeepSeek GPU代码使用了OpenAI 提出的Triton编程语言来编写，而Triton 的底层可调用 CUDA，也可调用其他 GPU 语言，为适配更多类型的算力芯片奠定了基础。

因而，我们会看到很多报道中都写道，“DeepSeek突破英伟达CUDA技术壁垒”。事实上，DeepSeek的这一举动证明芯片竞争从一开始的粗暴卷硬件进入到更新的“软硬协同”内卷之中。而开源框架与国产芯片结合会是突破口，DeepSeek既能在英伟达芯片上运行，也能在华为昇腾、AMD等非主流芯片上高效运行。

更为深远的影响是AI芯片领域不再是英伟达“一家独大”，更多的芯片公司可以参与进来。而处在英伟达上游的存储芯片公司，例如三星电子、SK海力士等可能也要被迫进行转型。

此前，三星电子、SK海力士等半导体巨头的发展战略一直是采用以通用存储器为重点的量产模式，其业务也很大程度上依赖于对英特尔、英伟达和AMD 等主要客户的批量供应，此前美银分析预测SK海力士可能获得2025年英伟达Blackwell GPU的60%以上订单。

DeepSeek发布使得科技公司对英伟达高端芯片需求会减少，但是市场对于AI芯片的总需求却不一定会减少。正如经济学家杰文斯所言：技术进步虽然提高了资源的使用效率，但需求的增加常常会导致总消耗量反而增加。

亚马逊首席执行官安迪・贾西曾表示，DeepSeek技术突破反而会推动人工智能整体需求的增长。人工智能推理等技术成本的下降，并不意味着企业会减少在技术上的投入。相反，成本降低让企业能够开发此前因预算受限而搁置的创新项目，最终反而加大了整体技术支出。

这无疑是三星电子、SK海力士转型的巨大机会，摆脱对英伟达的依赖，拥抱更广阔的市场。HBM需求从高端GPU转向定制化存储方案，为 AI 服务提供多样化的产品阵容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.