速度与成本的双重考验，AI算力“大考”已至丨ToB产业观察|服务器|大模型

分享至

来源：市场资讯

（来源：钛媒体APP）

当生成式AI从实验室走向产业一线，企业级AI落地已从“可选创新”变为“生存必需”。但是当前企业级在部署AI应用的过程中，仍面临了很多挑战。IDC发布的《边缘进化：从核心到边缘驱动成功》报告揭示，37%已部署生成式AI的企业中，超60%反馈“实时交互类应用响应延迟超预期”，而高昂的算力成本则让更多企业陷入“部署即亏损”的困境。

在智能体产业化加速到来的今天，算力需求的指数级激增与成本控制的刚性约束形成尖锐博弈，成为横亘在企业级AI规模化落地面前的核心壁垒。浪潮信息首席AI战略官刘军的判断直指行业本质：“智能体产业化的核心三要素是能力、速度和成本，其中token交互速度决定商业价值，token成本决定盈利能力，而这两者的根基都在于算力基础设施的革新。”

企业级AI落地陷入“规模悖论”

进入智能体时代，企业级AI的应用场景已从早期的简短问答升级为超长上下文交互、多任务协同规划等复杂形态，随之而来的是算力需求的爆炸式增长与成本的失控式攀升，形成了“不规模化则无价值，一规模化则亏成本”的行业悖论。这种双重挤压不仅体现在硬件采购的直接投入上，更渗透在推理运行、运维管理等全生命周期的成本支出中，成为制约企业级AI商业化的核心瓶颈。

中国报告大厅的数据显示，企业级AI系统对算力的需求年均增长达200%，远超硬件技术迭代速度。这一增长并非简单的数量叠加，而是源于应用场景的深度与广度双重拓展。

而这些需求落在硬件层面是对算力服务器的诉求，IDC与浪潮信息联合发布的《2025年中国人工智能计算力发展评估报告》中指出，2024年全球人工智能服务器市场规模已达1251亿美元，2025年将增至1587亿美元，2028年有望突破2227亿美元，其中生成式AI服务器占比将从2025年的29.6%提升至2028年的37.7%。这一数据背后，是全球范围内AI算力需求的爆发式增长，以及算力产业在技术架构、市场结构、发展模式上的全方位重构。

从场景深度来看，智能体的复杂任务处理对算力提出了前所未有的要求：金融领域的量化交易智能体需要在毫秒级完成海量市场数据的分析与决策，制造业的质检智能体需实时处理高清图像流并精准识别微小缺陷，零售行业的智能导购则要同步响应多用户的个性化需求并联动库存、物流系统。

IDC发布的《边缘进化：从核心到边缘驱动成功》中显示，37%已部署GenAI的企业中，超60%反馈“实时交互类应用响应延迟超预期”。以电商虚拟试衣间为例，用户上传图像后需等待核心云完成AI推理，单次交互延迟常达2-3秒，转化率较预期下降40%。

而刘军也在此前与笔者的对话中多次强调类似的观点，他曾指出，“速度，是智能体商业化应用落地的第一要义。”在智能体商业化应用落地过程中，交互速度是决定其能否在真实场景中发挥价值的首要因素。与传统的“人机交互”不同，智能体时代的交互本质是智能体之间的高频博弈与协作，任何延迟都可能导致决策失效或机会错失，token 吞吐速度已成为AI应用构建的“隐形计时器”。智能体的响应速度不仅影响用户体验，更直接关联商业产出的质量与稳定性。

此外，以典型API服务商为例，全球典型的大模型API服务商的DeepSeek 每token生成速度，基本维持在10至20 毫秒左右，而国内的生成速度普遍高于30毫秒。要在这一基础上进一步实现更低延迟的token生成能力，就必然要求底层算力系统架构、互联协议等关键点上进行创新。对此，刘军表示，速度是实现智能体应用效果的基础保障，“在很多产业实践中，浪潮信息看到有很多场景都有高时效性需求，智能体必须要在极短的时间内完成原本由人执行的任务。”

比如，股票交易、银行转账风险监测等金融场景下，对于延时的要求往往需要小于10ms，而目前市面上绝大多数AI Agent服务的延时都在15ms以上，如果响应过长，可能造成金融机构或者其用户的资产损失。

与算力需求同步激增的，是token消耗量的指数级增长，进一步放大了应用成本压力。火山引擎披露的数据显示，截至2025年12月，字节跳动旗下豆包大模型日均token使用量突破50万亿，较2024年同期增长超过10倍，相比2024年5月刚推出时的日均调用量增长达417倍；谷歌在2025年10月披露，其各平台每月处理的token用量已达1300万亿，相当于日均43.3万亿，而一年前月均仅为9.7万亿。

这种增长趋势在企业级应用中更为显著，麦肯锡调研显示，全球88%的企业已布局AI应用，但仅有39%实现实质性财务回报，成本高昂是导致这一差距的核心原因。以AI编程为例，当前企业使用AI辅助编程的每月token消耗量相比1年前平均增长了约50倍，达到1000万到5亿token的量级。

而另一方面，占token成本80%的算力成本一直在以每年10倍的速度下降。黄仁勋在Vera Rubin发布会上说，摩尔定律的增长曲线已大幅放缓，无法跟上每年5倍的 token生成量增长，更无法跟上token成本每年高达10倍的激进下降趋势。

token的成本不仅体现在硬件设备支出上，还体现在算力底层的电力成本支出上。施耐德电气预测，2026年AI数据中心单机柜功率密度将升至240kW，2028年将达到1MW，这意味着能源消耗将随算力密度同步攀升。对于中小企业而言，这种成本压力更为显著，某制造企业的AI质检项目，初始硬件投入达800万元，加上每年200万元的运维与能源成本，投资回报周期长达5年，远超企业预期。

高昂的综合成本让企业级AI落地陷入“投入产出失衡”的困境。从直接的token成本来看，当前主流大模型的商业化成本依然居高不下：以输出百万token为例，Claude、Grok等海外模型的价格普遍在10-15美元，国内大模型虽然相对便宜，也多在10元以上。OpenAI的GPT-5在处理复杂任务时，输入token成本为每百万1.25美元，输出token为每百万10.00美元，这种成本结构在需要高强度交互的企业级场景中，几乎无法实现规模化盈利。IDC的调研数据显示，AI推理产生的海量数据回传至核心云，导致企业带宽成本激增3-5倍，部分制造企业的AI算力集群年能耗成本已占其IT总支出的25%以上。

架构失衡与资源错配是“根因”

企业级AI算力成本高企的背后，并非单纯的“算力不足”，还存在底层算力架构与智能体时代的推理需求严重错配，导致“高配低效”“资源闲置”等结构性问题。

当前全球大模型竞赛已从“盲目堆算力”转向“追求单位算力产出价值”的新阶段，但80%以上的token成本依然来自算力支出，而阻碍成本下降的核心矛盾，在于推理负载与训练负载的本质差异被忽视，沿用传统训练架构承载推理任务，导致算力、显存与网络资源难以同时最优配置，形成了多重效率瓶颈。

算力利用率（MFU）的严重倒挂，是成本高企的结构性根源。在AI模型的全生命周期中，训练与推理的算力需求特征存在本质差异：训练阶段属于“计算密集型”任务，通过批量数据处理可实现较高的算力利用率，MFU（模型算力利用率）可达50%以上；而在推理阶段，特别是对于追求低延迟的实时交互任务，由于token的自回归解码特性，每一轮计算中，硬件必须加载全部的模型参数，却只为了计算一个token的输出，导致昂贵的GPU大部分时间在等待数据搬运，实际MFU往往仅为5%-10%。

这种巨大的算力闲置现象在企业级场景中尤为突出，比如，某头部制造企业的AI质检系统采用传统算力架构，其GPU集群的平均MFU仅为7%，大量算力资源在等待数据传输的过程中被浪费，直接导致单位检测成本居高不下。

究其原因，传统算力架构的设计核心是满足训练阶段的批量计算需求，而智能体时代的核心需求是推理阶段的实时交互，用训练架构做推理，好比“杀鸡用牛刀”，资源浪费不可避免。

与此同时，“存储墙”瓶颈在推理场景下被持续放大，进一步推高成本与延迟。在大模型推理过程中，随着上下文长度的增加，用于存储中间结果的KV Cache会呈指数级增长，这不仅占用了大量昂贵的显存空间，还导致了严重的访存密集问题。传统架构采用“存算分离”模式，数据需要在内存与显存之间频繁迁移，不仅带来了高额的数据迁移功耗，还显著增加了延迟。为了缓解这一问题，企业不得不采用价格高昂的HBM（高带宽内存），进一步提升了硬件采购成本。数据显示，配备HBM的GPU单价较普通GPU高出2-3倍，而KV Cache占用的显存空间可达模型本身的30%-50%，在超长上下文推理场景中，这一比例甚至超过70%。

另一方面，网络通信与横向扩展代价高昂，形成了算力规模化的“天花板”。当企业级AI模型规模突破单机承载能力时，跨节点通信成为新的性能瓶颈。传统的RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟，通信开销可能占据总推理时间的30%以上，导致企业被迫通过堆砌更多资源来维持响应速度，进一步推高了总拥有成本（TCO）。在千卡级以上的大规模算力集群中，网络设备的采购成本已占整体硬件支出的20%-30%，而通信过程中的能耗成本也不容忽视。

更严重的是，传统网络架构的“拥塞与丢包”问题会导致算力资源的进一步浪费：当多个节点同时进行数据传输时，网络拥堵会导致部分数据重传，不仅增加了延迟，还占用了额外的算力与带宽资源。中国软件评测中心（CSTC）对20余家主流大模型服务提供商的综合评估显示，网络通信延迟是导致国内大模型token生成速度普遍高于30毫秒的核心原因之一，而全球主要大模型API服务商的token生成速度基本维持在10-20毫秒左右，网络架构的差距直接体现为商业竞争力的差异。

另一方面，软硬协同也是决定算力效率高低与否的关键因素。当前，多数企业的AI部署采用“通用硬件+通用软件”的组合模式，未针对特定模型的计算特征与行业场景的需求进行深度优化，导致算力资源无法充分释放。例如，不同行业的AI模型具有显著的计算特征差异：金融领域的风控模型以逻辑推理为主，对CPU算力需求较高；制造业的质检模型以图像处理为主，对GPU的并行计算能力要求较高；而零售领域的推荐模型则需要兼顾数据处理与逻辑推理，对异构算力的协同调度要求较高。

传统的通用算力架构无法精准匹配这些差异化需求，导致部分资源过载、部分资源闲置。同时，软件框架与硬件架构的适配不足也会影响算力效率，例如，部分开源框架未针对本土AI芯片进行优化，导致芯片的核心性能无法充分发挥，进一步降低了单位算力的产出价值。

AI算力破局之路在何方？

面对算力需求激增与成本高企的双重挑战，企业级AI落地的破局关键不在于“盲目增加算力投入”，而在于通过算力架构的根本性革新，实现“算力效率的数量级提升”与“成本的规模化降低”。

在“算效”方面，要实现更低延迟的token生成能力，必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。Gartner预测，到2028年，超过40%的领先企业将采用融合CPU、GPU、AI ASIC、神经形态计算等多种范式的混合计算架构，以应对复杂的AI工作负载，这种架构将实现性能、效率与创新的多重突破。

在系统架构领域，需要推动算力架构从“集中式”向“分布式协同”转型，通过存算一体、算力网络、边缘计算等技术创新，破解“存储墙”“网络墙”等效率瓶颈。比如，针对此，天翼云就推出了“端网协同负载均衡方案”，通过自研集合通信库CTCCL实现端侧精准控流，配合网侧优化，将AllReduce峰值带宽提升40%，大模型训练效率提升7%，为架构创新提供了实践范例。

在软件优化领域，需要加强芯片与软件的适配性优化，开发针对性的操作系统、数据库、AI框架等基础软件，提升全栈算力效率。

在成本方面，目前国内一流水平已经能将每百万token的价钱降低到1元钱。但在刘军看来，这还远远不够，“未来，AI要真正成为如同‘水电煤’般的基础资源，token成本必须在现有基础上实现数量级跨越，成本能力将从‘核心竞争力’进一步升级为‘生存入场券’，直接决定AI企业在智能体时代的生死存亡。”刘军指出。

而通过算力产业头部企业的实践表明，围绕推理场景的核心需求，重构系统架构、推动软硬协同优化、实现资源精准匹配，是破解算力与成本困境的有效路径。这种革新不仅能直接降低token成本与响应延迟，更能重塑企业级AI的商业价值逻辑，推动行业从“规模导向”转向“效率导向”。

架构重构是现阶段突破算力效率瓶颈的核心抓手，其中心逻辑是“按需拆分、精准适配”，让不同计算模块在不同硬件上高效协同。传统架构的设计思路是“大而全”，试图用单一架构承载所有计算任务，而新的架构设计思路则是“极简与精准”，围绕降低token成本和提升响应速度的核心目标，将推理流程拆解得更细，支持PD分离、AF分离、KV并行、细粒度专家拆分等计算策略，让不同计算模块在不同卡上按需配置并发，把每张卡的负载“打满”，实现“卡时成本”最低、“卡时产出”最高。进而，在架构重构的基础上，进行软硬协同优化。硬件层面的创新为效率提升提供了基础，而软件层面的精准适配则能充分释放硬件潜力。

算力与成本的博弈，本质上是技术创新与商业价值的平衡。在企业级AI规模化落地的关键阶段，算力架构的革新已成为突破成本瓶颈、提升商业价值的核心引擎。随着架构重构、软硬协同等技术的不断成熟，以及产业生态的持续完善，算力成本将实现持续下降，响应速度将不断提升，这不仅将推动AI真正成为如同“水电煤”般的基础资源，更将赋能千行百业的数字化转型，开启智能经济的全新篇章。

未来，企业级AI算力成本优化将朝着“专用化、极致化、协同化”的方向发展。专用化意味着针对不同行业、不同场景的需求，开发定制化的算力架构与软硬件解决方案，实现算力资源的精准匹配；极致化要求持续推动算力效率的提升，通过架构创新、工艺进步、算法优化等多重手段，实现token成本的持续下降与响应速度的不断提升；协同化则需要构建更加完善的产业生态，实现芯片、软件、模型、应用等环节的深度协同，形成“算力-应用-价值”的正向循环。（文｜Leo张ToB杂谈，作者｜张申宇，编辑丨盖虹达）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.