网易首页 > 网易号 > 正文 申请入驻

浪潮信息:Token交互速度成AI商业化关键指标

0
分享至

在当前AI超节点系统架构设计中,传统追求规模扩展的思维模式已经难以适应智能体时代的商业需求。浪潮信息首席AI战略官刘军强调,必须从客户实际应用场景出发,将token交互速度作为核心衡量指标,这恰恰是浪潮信息所倡导的AI超节点商业价值重构的关键所在。在机器与机器交互日益频繁的智能体时代,浪潮信息认为响应速度直接决定了AI应用的商业变现能力。



智能体时代,速度就是金钱

规模扩展定律(Scaling Law)一直是驱动大模型智能持续增长的底层逻辑,推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入,能显著提升模型的推理能力,而以推理能力为代表的复杂思维的涌现,是构建智能体应用的基础。另一方面,以DeepSeek为代表的开源大模型极大的降低了创新门槛,加速了智能体产业化的到来。



刘军指出,“智能体产业化的核心三要素是能力、速度和成本。其中,token交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中,基本上按照大概50毫秒的水平,就是每秒输出20个token,人的阅读速度就能跟得上。但很多人还没意识到,未来的智能体时代会更多的出现机器与机器之间的交互场景,对于智能体之间的交互而言,这个速度远远不够,比如说直播电商、量化交易、欺诈防控等特定业务场景中,对token生成速度的最低要求都是10毫秒以下。”

以高强度、实时互动的直播电商场景为例。2024年底,某知名直播电商平台进行了专家组合智能体的A/B实验,实验组部署了经过深度优化的智能体,对照组则使用未经优化的标准版本智能体,优化后的智能体平均响应延迟相较于对照组降低了38%。实验结果表明,部署了低延迟智能体的直播间,其商品交易总额(GMV)平均提升了11.4%,同时用户的复购率也取得了7.8%的显著增长。

38%的延迟降低,并非提升了智能体回答内容的质量,而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的“黄金窗口”期内。在直播电商这类场景中,用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在“思考”时,用户的注意力可能已经转移,或者主播已经开始介绍下一件商品,从而错失了最佳的销售转化窗口。

“在智能体时代,快,不再是可选项,而是商业成功的刚性约束。”刘军强调,“只有当智能体的响应快于业务决策的窗口期,快于用户耐心消逝的临界点……AI才能真正成为核心生产力。”

token交互速度正在重塑AI算力价值评估体系

事实上,对于token交互速度的考量正在重构AI算力系统的价值评估体系。最近广受关注的InferenceMax™ 开源AI基准测试,正在创造一种动态追踪模型更迭的算力评估体系,试图在真实AI推理环境下衡量各类AI算力系统的综合效率。在这一基准测试中,token生成速度被列为最重要的一项衡量指标。



同时,清华大学与中国软件评测中心(CSTC)对20余家主流大模型服务提供商的综合表现进行了全面评估,联合发布了大模型服务性能排行榜,明确指出延迟指标是用户体验的核心,直接决定用户留存,是平台差异化竞争的首要技术门槛。因此,速度同样也成为了大模型API服务提供商的核心竞争力。当前,全球主要大模型API服务商的token生成速度,基本维持在10~20毫秒左右,而国内的生成速度普遍高于30毫秒。



元脑SD200将token生成速度带入“10毫秒时代”

要实现更低延迟的token生成能力,必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。

浪潮信息对元脑SD200超节点AI服务器进行了大量的软硬件协同创新与优化,实现DeepSeek R1大模型单token生成速度低至8.9毫秒,带动国内AI服务器token生成速度率先进入“10毫秒时代”。



对于为何能在token生成速度上实现如此出色的性能,刘军表示,智能体中各个模型之间的交互,很多时候通信数据包并不是很大,超高的带宽会出现浪费,“就像是从a地到b地修了16车道的高速公路,但是车辆在16车道上只跑了很短的距离,反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点,就是解决车辆上高速和下高速的卡点问题,让车辆直通上来,直通下去。”

元脑SD200采用了独创的多主机3D Mesh系统架构,实现单机64路本土AI芯片高密度算力扩展,原生支持开放加速模组OAM,兼容多元AI芯片。同时,元脑SD200通过远端GPU虚拟映射技术创新,突破跨主机域统一编址难题,实现显存统一地址空间扩增8倍,单机可以提供最大4TB显存和64TB内存,为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计,元脑SD200单机即可承载4万亿单体模型,或者同时部署由多个万亿参数模型构成的智能体,多模协作执行复杂任务。



互连协议的设计是元脑SD200实现极低通信延迟的关键,浪潮信息做了大量的通信优化和技术创新,如采用极致精简的3层协议栈,并原生支持 Load/Store等“内存语义”,让GPU可直接访问远端节点的显存或主存,将基础通信延迟缩短至百纳秒级;另外Open Fabric原生支持由硬件逻辑实现的链路层重传,重传延迟低至微秒级,特别是分布式、预防式的流控机制,实现全局任务均在发送前确保接收端有能力接收,从根本上避免了拥塞和丢包。



除了硬件方面的创新,浪潮信息也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征,完成了通信库、计算框架、PD分离策略等多方面的优化,大幅提升了DeepSeek、Kimi等大模型的推理输出速度。通信库层面,针对Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了与元脑SD200深度适配的通信算法;框架层面,浪潮信息完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟;在推理阶段,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。

实测数据显示,元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型,当输入长度为4096、输出长度为1024时,单用户token生成达到112 tokens/s,每token生成时间仅为8.9ms,率先实现国内AI服务器token生成速度低于10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

展望未来十年AI经济的发展前景,整个行业需要在算法优化、软件架构和硬件创新三个层面协同突破延迟瓶颈。速度即金钱不仅代表着浪潮信息提出的全新商业理念,更是驱动下一代人工智能增长的核心经济逻辑。作为行业领军企业,浪潮信息将持续面向智能体产业化需求,通过架构创新激发产业活力,让AI真正成为赋能百行千业的核心生产力和创新引擎。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解晓东,经抢救无效去世!

解晓东,经抢救无效去世!

华人星光
2025-11-16 13:19:17
泪目!女排30岁美女奥运冠军轰11分晋级:最后一舞冲冠又美又能打

泪目!女排30岁美女奥运冠军轰11分晋级:最后一舞冲冠又美又能打

李喜林篮球绝杀
2025-11-17 19:26:18
快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

快船2连败后,裁判解释判罚,科林斯很坦诚,马克西表态哈登

体坛大辣椒
2025-11-18 14:49:02
小米集团:是生,是死? | 深度

小米集团:是生,是死? | 深度

资本时差
2025-11-18 10:12:48
乌克兰目前在红军城的危急程度,远不及扎波罗热方向

乌克兰目前在红军城的危急程度,远不及扎波罗热方向

碳基生物关怀组织
2025-11-18 19:27:43
浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

小霍霍
2025-11-18 13:48:34
上海老教授夫妻“借名买房”导致亲情彻底破裂!如今房子要不回来,儿子儿媳闹离婚,更心寒的是……

上海老教授夫妻“借名买房”导致亲情彻底破裂!如今房子要不回来,儿子儿媳闹离婚,更心寒的是……

都市快报橙柿互动
2025-11-16 23:37:25
“穷人就不配娱乐吗?”女生因王者“贵族7”,被取消贫困生资格

“穷人就不配娱乐吗?”女生因王者“贵族7”,被取消贫困生资格

妍妍教育日记
2025-11-17 18:51:08
江苏某大学教授被带走调查,博导竟是高中生,太能骗了

江苏某大学教授被带走调查,博导竟是高中生,太能骗了

上峰视点
2025-11-18 10:04:33
我退休金5600,只想早点离开这世界,71岁老人:活着太痛苦了

我退休金5600,只想早点离开这世界,71岁老人:活着太痛苦了

媛来这样
2025-11-17 09:50:34
使徒行者主演送欢喜哥最后一程

使徒行者主演送欢喜哥最后一程

都市快报橙柿互动
2025-11-18 12:51:35
零下1度!广东冷到结冰!东莞明后天更冷!!!

零下1度!广东冷到结冰!东莞明后天更冷!!!

东莞纪实
2025-11-18 17:17:24
辛芷蕾回鹤岗参加同学聚会!没架子很接地气,站C位和同学差距大

辛芷蕾回鹤岗参加同学聚会!没架子很接地气,站C位和同学差距大

郑丁嘉话
2025-11-18 09:32:51
救救产科!上海某产科医生称:从一晚上8个剖腹产到现在1个没有

救救产科!上海某产科医生称:从一晚上8个剖腹产到现在1个没有

梦录的西方史话
2025-11-17 18:16:43
渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

渔村逆袭?“电诈恶魔”陈志老婆是四川人,150亿比特币沾满血泪

豆腐脑观察局
2025-11-17 06:50:03
人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

情感大使馆
2025-11-10 09:49:53
电影《鬼灭之刃》20号下映信息不实,其第三段的密钥已发布,秘钥时间到21日23:59

电影《鬼灭之刃》20号下映信息不实,其第三段的密钥已发布,秘钥时间到21日23:59

极目新闻
2025-11-18 09:56:24
过于离谱,巴基斯坦走远了

过于离谱,巴基斯坦走远了

寰宇大观察
2025-11-16 00:08:03
中美俄三领袖罕见缺席G20,折射一大信号:全球治理迎来关键转折

中美俄三领袖罕见缺席G20,折射一大信号:全球治理迎来关键转折

铁锤简科
2025-11-18 19:43:20
22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

锅子篮球
2025-11-17 20:20:53
2025-11-18 20:44:49
世界知迅
世界知迅
随时分享我的生活故事。
434文章数 2关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

旅游
艺术
本地
公开课
军事航空

旅游要闻

高原银发旅行热 西藏不再是远方

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版