网易首页 > 网易号 > 正文 申请入驻

对话曙光存储何振:中国AI的最大瓶颈,可能不全在GPU身上

0
分享至


经济观察报记者 郑晨烨

近日,中科曙光存储科技有限公司(下称“曙光存储”)联合中国移动研究院,正式发布了面向“东数西算”的存算一体化调度平台,其目标是解决“东数西算”工程中的一个具体难题——存放在西部的数据,东部的算力用不上、用不好,数据调度效率低下。

这一合作的背后,是中国AI投资领域一个特殊的现状:曙光存储副总裁张新凤在与记者的交流中介绍,国内市场在算力与存力上的投资配比约为40:1,而国外市场这一数字通常在10:1之内。

巨大的投资倾斜于以GPU为代表的算力,但效率的瓶颈却出现在了另一端。

“存储无论在哪个层面都是瓶颈,”曙光存储总裁何振对经济观察报记者表示,“数据跟不上,我们前面跑得再快都没有用。”在何振看来,这种因数据流转不畅导致的“算力空等”,代价是昂贵的。其团队测算,在存力上每投入1元,或可为算力节省10元成本。

解决这一效率问题,需要深厚的技术能力,而该领域曾长期由国外厂商主导,国内厂商具备提供解决方案的能力,是近些年才发生的变化。中科曙光(603019.SH)旗下的曙光存储,是其中的一家国内厂商,经过21年的研发投入,按照其总裁何振的说法,该公司已经走完了一个从研发是“负担”到研发是“护城河”的阶段。当市场环境变化,原先的国外厂商逐步退出,这使得曙光存储有机会凭借其技术积累直接面向市场,其集中式存储产品,近年在SPC-1国际基准评测(一项国际公认的存储性能权威测试)中,性能排名全球第一。

这种从追赶到提供解决方案的角色变化,也反映了中国科技产业格局的变迁。8月1日,围绕中国存储及AI产业的现状、瓶颈与未来,经济观察报与曙光存储总裁何振展开了对话。

|对话|

AI基建的三大难题

经济观察报: 当前行业在AI算力上投入巨大,但你似乎认为,真正的瓶颈并不在算力本身,而是在更基础的数据层面,具体是指什么?

何振:我们现在能看到,无论是国外的英伟达还是国内的一众AI芯片厂商,大家都在追求每秒钟提供多少算力。其实他们假定数据可以持续地喂给GPU卡,这个实际上是一个很有挑战的事儿。

全国一体化大数据中心的建设这个大课题,最近几年我们一直在和运营商合作。其中我们主要发挥的作用,是通过他们把这些数据中心连通以后,构建一个全网数据统一管理、跨域流动的大的基础设施。曙光存储截至今年,已经做了20多年了,针对以往的数据中心采用传统的分布式文件系统,要想实现存得下、流得动、用得好,还是要解决以下几个问题。

第一,数据看不全的问题。现在的数据中心都是存在一个壁垒里面,相互之间数据是不通的,同时每一个数据中心里面采用的不同厂家的系统又不兼容,导致数据很难统一管理,形成统一的目录。所以对企业来说,这是看不全的。

第二,理不顺。我们一直说现在的数据,不管是从上百TB(计算机存储容量单位,1TB等于1024GB)或者上千TB,特别是随着AI技术的发展,对这些数据的价值如何深度和快速的定位,以及数据跨域之间如何可以快速地流通,这是我们目前面临最重要的问题。

第三个问题,是我们一直提到的数据用不好。在“东数西存”的战略下,把一些冷的数据存到西部,热的数据跟算力中心离得近一些。当然这个过程是在传统数据中心里面一直没有解决的问题,数据存那以后,我存到西部,东部的一些业务系统调用这个数据的话,延迟比较长,比较慢,所以这也是我们一直说用得不好的主要原因。就是使用的感受不是很好。

经济观察报: 你认为存储是瓶颈,但这似乎与行业当下“大力出奇迹”的算力竞赛相悖,为什么会出现这种情况?

何振:围绕着人工智能市场的发展,这两年提出来的是性能,我们要追求更高的天花板。因为传统的系统里面,我们可以看到,整个IT系统建设,底层是存储,中层是网络,再上面是计算,再往外就是我们的各种移动终端和最终用户。这三层建设里面,存储无论在哪个层面都是瓶颈。

AI芯片厂商都在追求每秒钟提供多少算力,他们假定数据可以持续地喂给GPU卡,这个实际上是一个很有挑战的事儿。一方面,网络本身要非常强大,现在,200G、400G乃至800G带宽的高速网卡,已经应用到服务器上;另一方面,这些原始数据所在的存储平台,是不是能支撑?

这就是我们说的IOPS(每秒读写操作次数),带宽,单流的带宽,这个层面的挑战越来越大。因为前面的算力,无论是英伟达为主的,还是国内的一众厂商,大家都在追求这件事儿,存储要跟得上才能不拖后腿。永远会有一个存储瓶颈,达到天花板的时候,前面跑得再快都没有用,因为数据跟不上。

经济观察报: 这些存在于底层的数据难题,在具体的商业场景中如何体现,AI的出现又带来了哪些新变化?

何振:这些问题是一直存在的。比如自动驾驶,路测车每天每辆车是几TB到十几TB的数据,这些采集的数据,首先会集中到一个中心处理,然后进行脱敏、标注,再到数据训练,是这么一个流程。以往我们的用户需要买不同厂家、不同类型的存储,每个数据处理完了以后,还要把数据挪到下一个存储里面去,这些过程对于用户的投资,还有数据流动的效率,都是非常大的挑战。

到了AI时代,这个问题就更严重了。比如大数据的训练,对IOPS的性能要求提高了数十倍到百倍,这是大家可以感受到的变化。我们以前做大规模的存储系统,可能说几百Gb的带宽就很高了,现在基本是十几个TB。

经济观察报: 与中国移动合作落地国家级战略,这个项目的契机是什么?

何振:我们做的这个平台是中国移动主动提出来的。这个方向我们之前,应该说是至少十年之前,我们都考虑过统一存储调度平台的事儿,因为存储要解决的问题就那几个方面:容量、性能、数据的流动。如果我们要解决数据流动的问题,做一个类似全球统一的空间,这是必然要走的路线。

但是我们也关注投入产出比,如果市场上没有看到有实际的需求,能把我们的投入转化为收益,我们可能也就是做一些技术的预判,但是不会那么快投入。我们投入这个,确实是中国移动看到有具体的落地场景和需求了。

他们当时给我们提出这个事儿的背景有两个。第一个,移动自己有业务需要。他们从2020年开始就成为我们的客户,现在已经合作6年了。我们在中国移动上线了上千套的存储,分布在多个子公司和资源池。现在这么多的数据,到底有多少数据资产他们是不清楚的,因为都是数据存储的孤岛。

第二个问题,当时我们国家在提“东数西算”,希望把西部的能源资源优势充分利用起来。而像移动这样的运营商,他们的身份,是特别适合帮国家落地这个战略的。

他们为什么找到曙光存储?因为这个事情是比较复杂的,我们要跨异构、跨地域实现数据流动,这里面有很多问题需要解决。这是困扰很多厂商的问题,要解决这个问题,必须找一个有全栈技术自研沉淀的厂商才能做。

多年自研沉淀为护城河

经济观察报:在一个更看重“短平快”的商业环境中,曙光存储为什么会选择全栈自研路径?

何振:存储和其他产品不一样,是有一定技术门槛的。曙光存储成立到今年是整整21年,我们现在整个团队的规模大概是1千多人,在国内存储领域我们是排到第一或者第二的规模。我们一千多人里面,90%以上都是研发人员。

人工智能的市场,本身就是从高性能计算领域演化出来的,我们长期的技术积累,最终等来了两个变化。第一是(我们自身)厚积薄发到一定程度,优势就凸显了,形成了护城河;第二是中美科技领域的斗争越来越激烈,原来代表高性能的EMC(易安信,美国信息存储资讯公司)等等,已经全面地退出了中国的市场,这个时候我们的优势就凸显出来了,因为代码是自己写的,性能又不比他们差,所以我们的机会也就来了。

特别是像国内部分知名的头部厂商,他们原来都是基于国外的内核做了优化和调整,但是在国产化的浪潮下,或者是国内对于存储的安全性和数据安全越来越重视的情况下,他们的优势已经没有了,反而我们的自研变成了护城河,他们开始找我们合作,要我们的产品。

不管是我们的分布式产品,还是集中式产品,现在都已经领先于国外的任何一款产品了。特别是以集中式存储来说,我们的产品在今年的打榜中,以3千万的IOPS,0.202毫秒的延迟,登顶世界第一,打破了国外存储在性能上对我们一直碾压的势头。

我们现在的产品,性能上去了,但是成本也要比国外的便宜很多。为什么我们现在一直敢说曙光存储一定要成为中国的EMC?因为我们这么多年自研的沉淀,变成了护城河。

“存算协同”的技术进步

经济观察报: 过去都说AI是“亿元投入”的游戏,现在这个门槛降低了吗?新的瓶颈又出现在哪里?

何振:2024年之前,我们做大模型的时候,做的都是大模型的训练,如果要建一个大模型训练平台,几亿元都有点少,基本是十几亿元,甚至几十亿元的投入。在这个时候确实是不太有企业或者客户具备这个能力来投入。

但是2024年DeepSeek出来以后,极大地降低了进入AI的门槛,从训练转到推理逻辑,这个对整体的算力和存力,要求都没那么高了。目前来说,到大数据推理应用的阶段,其实是国内自己有了更多的机会,也降低了大众接触AI的门槛。

但到了推理阶段,所面向的用户群体五花八门,随之而来的新瓶颈,就是隐私计算和可信计算的问题——这也是国家层面的明确要求。

实际上,数据安全是我们从一开始就考虑到的核心问题。在曙光存储的体系中,我们能做到数据的隔离、加密和校验。从架构上看,无论是底层的国产化芯片、中间的通讯链路,还是前端的网络接口,我们都实现了全链路的安全加密,能够随时对接国家的相关政策与安全标准。

未来随着人工智能在各行各业的进一步发展,信息安全将是所有用户都更加关注的问题。

经济观察报: 要实现AI普惠,除了降低入口门槛,更关键的是要让AI用得起,从存储技术角度看,降低AI运行成本的关键是什么?

何振:对于我们做存储的厂商来说,最核心的一点,是提升GPU资源的利用率。我们不能让GPU等数据,要把数据以最短的路径运到离GPU最近、最快的介质上。

我们有一个测算,在存力上每投入一块钱,算力可以节约10块钱。这背后有一套完整的计算链路和数据可以支撑。

具体来说,我们针对这个做了很多事情。比如我们做了GDS(一项旨在优化GPU与存储设备之间数据传输效率的技术),从存储到GPU的时候,不需要CPU和内存的参与,可以通过一个专门通道过去。目前我们支持国外的(芯片),也支持国内的芯片,我们有自己的研发能力,他们提供接口,我们就可以建立联系,快速推送数据。

另外一块,是在推理时对行业数据的利用。无论是我们对上下文的存储,还是用向量数据库来存行业积累的高质量的数据,其实都是在存储层面,让训练时间更短更高效,让推理的用户体验会更好,每秒生成的token(AI处理语言的基本单位)数量更多,问题和想要答案的关联性也会更高。

现在评价一个大模型系统的推理能力,上下文长度是很重要的指标,这也考验存储的能力。如果上下文长度不够,一个token用完了就马上扔了,下一个问题和上一个有关,就得重新算,这会造成大量的GPU资源浪费。

我们现在的方法是,把上下文产生的结果都存储下来,还会存到GPU本地。通过这种方式,可以把上下文的窗口做得非常长,token之间的(生成)都会有很大的加速。

我们看到,经过优化的系统每秒可生成2000到3000个token。这种高速生成并非只靠GPU单方面的算力进步,而是后台存力向前端GPU持续释放数据处理能力的结果,是“存算协同”的技术进步。

(作者 郑晨烨)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。

郑晨烨

深圳采访部记者 关注新能源、半导体、智能汽车等新产业领域,有线索欢迎联系:zhengchenye@eeo.com.cn,微信:zcy096x。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚宣布,加息!直线拉升!

刚刚宣布,加息!直线拉升!

中国基金报
2026-02-03 13:09:25
今年立春不一般,5个生肖要躲春,2月4日立春,到底应该怎样躲?

今年立春不一般,5个生肖要躲春,2月4日立春,到底应该怎样躲?

第一名厨官方
2026-01-31 15:26:56
“老子不是怕死的人”,改判死刑后,凶手竟口出狂言

“老子不是怕死的人”,改判死刑后,凶手竟口出狂言

南方都市报
2026-02-03 14:31:45
央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

梦醉为红颜一笑
2026-02-02 06:12:05
就煮了两回!堵了许久的黏痰“化开了”!胸口像开了扇窗!

就煮了两回!堵了许久的黏痰“化开了”!胸口像开了扇窗!

江江食研社
2026-01-27 12:30:06
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
同是阿拉伯人,蒲寿庚家族早已衰亡,赛典赤家族却显赫至今!

同是阿拉伯人,蒲寿庚家族早已衰亡,赛典赤家族却显赫至今!

老李观历史
2026-02-03 16:50:59
25岁新疆小伙因酷似泽连斯基走红!当事人:15岁开始学做馕,是地道新疆人,社交平台账号已改为“打馕斯基”

25岁新疆小伙因酷似泽连斯基走红!当事人:15岁开始学做馕,是地道新疆人,社交平台账号已改为“打馕斯基”

大风新闻
2026-02-02 23:19:03
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
大S雕像落成五大槽点:小S笑脸刺眼,儿女缺席,仪式细节拉垮

大S雕像落成五大槽点:小S笑脸刺眼,儿女缺席,仪式细节拉垮

梁猕爱玩车
2026-02-04 00:28:53
炒白银期货爆仓!大亏1500万后,有投资客发出绝望哀嚎奉劝停下来

炒白银期货爆仓!大亏1500万后,有投资客发出绝望哀嚎奉劝停下来

火山诗话
2026-02-03 08:40:12
荣耀撞脸iPhone被骂惨!客服回应后,网友又吵翻了

荣耀撞脸iPhone被骂惨!客服回应后,网友又吵翻了

雷科技
2026-02-04 00:27:54
知道斩杀线后,再看《当幸福来敲门》:六处细思极恐,一个大Bug

知道斩杀线后,再看《当幸福来敲门》:六处细思极恐,一个大Bug

窥史
2026-01-25 21:53:37
国防部严正回应!日本强登钓鱼岛计划曝光,背后竟暗藏这一出戏

国防部严正回应!日本强登钓鱼岛计划曝光,背后竟暗藏这一出戏

科学知识点秀
2026-02-04 08:00:14
沦为笑话!6天内3王牌罢赛 沙特联赛走中超老路:高薪买不来尊重

沦为笑话!6天内3王牌罢赛 沙特联赛走中超老路:高薪买不来尊重

风过乡
2026-02-04 08:13:16
负债百万、露宿街头、装疯卖傻,星光大道的草根歌手现状太落魄

负债百万、露宿街头、装疯卖傻,星光大道的草根歌手现状太落魄

冷紫葉
2026-02-02 17:07:15
惊人的穷人定律:越是贫穷的家庭,越喜欢让子女从事这3类工作,结果越来越穷

惊人的穷人定律:越是贫穷的家庭,越喜欢让子女从事这3类工作,结果越来越穷

谭老师地理大课堂
2026-02-03 20:53:42
阿森纳晋级英联杯决赛后,英超客战狼队提前至2月18日进行

阿森纳晋级英联杯决赛后,英超客战狼队提前至2月18日进行

懂球帝
2026-02-04 08:30:09
特朗普眨眼莫迪点头,美印已达成贸易协议,中国成为美国关税高地

特朗普眨眼莫迪点头,美印已达成贸易协议,中国成为美国关税高地

火星宏观
2026-02-03 18:13:30
开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

窥史
2026-01-31 22:45:04
2026-02-04 08:51:00
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
112879文章数 1606421关注度
往期回顾 全部

科技要闻

李飞飞:AI的终点不是写代码,而是人类的尊严

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

艺术
手机
旅游
教育
数码

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

手机要闻

苹果助推全球手机ASP创新高,国产全部不及格

旅游要闻

澳门“欢乐春节”系列活动丰富“旅游+盛事”魅力

教育要闻

考后一个月,大家都在做什么?

数码要闻

M5 Pro与M5 Max版MacBook Pro即将发布 经销商库存告急

无障碍浏览 进入关怀版