网易首页 > 网易号 > 正文 申请入驻

AI浪潮之下:存储来到聚光灯下

0
分享至

作者 | 王一鹏

如果将整个行业对智算中心的投资分拆来看,我们将得到一个趋势性结论:算力不再是唯一重点,行业对存储设备的重视正在上升。

有数据显示,硅谷企业对于存储的投资接近算力总购买成本的 10%。而来自“金融界”的消息称,云厂商对存储设备的采购占比,在数据中心 BOM(物料清单)中已升至 40%。到了今年 5 月,三星、SK 海力士、美光、铠侠与闪迪五大 NAND Flash 制造商同步减产,供给面收缩,进一步使全球存储市场热度上升。

而这一切的根因,都源自 AI 业务对整个 AI 基础设施建设的强烈刺激。一方面,无论是预训练还是推理,体量都在增长,近三年过去了,生成式 AI 技术仍未到达稳定态,有海量的数据需要被存储和治理。另一方面,AI 推理业务自有其场景化、业务化特点,存储设备需要从旧有的架构,进化成先进存储。

2025 中国算力大会期间,信通院发布的《2025 存力发展报告》指出我国存力总规模迅速增长的同时,存力结构持续优化,闪存在外置存储中的占比从 2023 年的 25% 提升至 2024 年的 28%,显示存储系统正加快由容量驱动向性能导向转型,其结构更趋高效。在 8 月刚完成的山东河口智算中心,先进存储占存储总量 35% 以上;而在上海市智能算力基础设施的规划中,先进存储在总存储容量中占比目标是达到 50% 以上。

对于国内厂商而言,这是明确的市场机会。从存储晶圆颗粒、存储介质到主控芯片,国内的存储产业技术不断进步,生态逐渐壮大,同时最终客户的需求也愈加清晰和急迫。主控芯片堪称存储产品的“大脑”,尤为重要。平头哥在 2023 年就前瞻性地为 AI 需求增长打造了镇岳 510 这款在时延、能效、带宽、可靠性等各方面全方位领先的“六边形战士”。

1 想“喂饱”GPU,AI 存储需要阶段性重构

主控芯片负责数据读写、错误纠正、损耗均衡等,对固态硬盘的性能、可靠性和寿命至关重要,因此也对 AI 负载的不同需求尤为敏感。

AI 预训练业务需要存储系统具备超大容量,因为既需要存储原始数据,也需要存储模型训练的中间结果和模型检查点,数据量一般会达到 PB 级,读多写少。而 AI 推理业务,对数据的请求量巨大、高并发、实时性强,虽然要求的存储容量相对预训练要低,但也需要缓存模型、参数和实时数据。

这种独特的业务形态,使得过往存储于数据中心的“冷数据”的体量在下降,而“温数据”、“热数据”的占比在上升。到 2025 年,随着 AI 推理业务占比的提升,“温数据”的占比将进一步增加。

曾经数据中心的存储系统,任务比较多元,而随着 AI 兴起,数据消费行为发生改变,存储系统的核心工作目标,全面转向了与 GPU 的协同,包括尽量减少 GPU 等待数据供给的时间,提高 GPU 的利用率。尤其是服务于 AI 模型训练的算力集群,其利用率还远未达到理想值,瓶颈之一就在于配套存储的吞吐能力。

因此,想把 GPU“喂饱”,实际上是个“既要又要”的问题——既需要存储系统在容量、时延、带宽、可靠性上有所突破,又要更好地控制能耗,尽最大可能控制成本。

今天的智算中心设计,目标是万卡集群、十万卡集群,乃至二十、三十万卡集群,其能源消耗已经到达一个相当恐怖的境地,甚至间接拉动了对核能领域的投资。美国能源部预测,到 2028 年,美国数据中心的电力需求将占美国总电力需求的 6.7%-12%。算力利用率不够高,集群训练效率不够高,也进一步抬高了同等算力规模下,针对模型训练的能源需求。

另外,在世界范围内,由于闭源顶级模型仍是承接业务 Token 调用的“主力”,而对算力和模型训练的预投入,已经消耗了大笔预算,企业在落地 AI 时总觉得有些捉襟见肘。所以,即便先进存储的能力已经全面升级,客户对可能会上扬的价格仍是极度敏感的。

该如何理解这种价格敏感呢?英特尔的 Optane 傲腾作为曾经的“明星内存”,无论是延迟还是使用寿命都有极佳表现,但如今已经退市,2025 年底全面停止出货。傲腾寿命终结的原因有很多,价格就是其中核心之一。

对于从业者而言,寻找一个性能、价格双优的新方案,成了当务之急,而这也是新一代存储主控需要回答的问题。

2 镇岳 510 的“六边形”能力

平头哥提交的答案是镇岳 510,并围绕 AI 业务的发展现状,为这款 SSD 主控芯片定义了“六边形”能力:

在这六维能力中,隐藏着一个核心设问:当 AI 落地企业后,站在存储设备的角度,应该如何计算和节省整个产业的运行成本?

镇岳 510 从芯片设计上的回应,大概分可为三个层级:业务侧,主要是模型训练中断后的恢复成本;基建侧,是智算中心的运营成本;设备侧,是存储的使用寿命,或者可以称之为“换新成本”。

在业务侧,由于训练规模大、耗时长,模型训练中断几乎是不可避免的,此处成本的主要来源是,当存储设备出现不可恢复性错误,以至于模型无法基于断点恢复训练,企业付出的代价可能比存储设备本身的价值还要高。这就要求所谓“可靠存储”。

业界对此的标准是一个很极端的值:UBER 10^-17,意为不可恢复错误率为十的负十七次方,在读取 10^17 个比特的数据时,统计上预期只会发生 1 个无法自行纠正的错误。

镇岳 510 的可靠性是 UBER 10^-18,优于业界标准一个数量级:如果是读取一块 32TB 的硬盘,一天写一遍,十年才出一个无法恢复的读错误

在基建侧,问题与能效指标绑定了在一起,与智算中心的日常运营直接相关。我们很难将此与“AI 应用落地”这一大的趋势分拆来看,因为产业上游所有的成本,最终都会以某种形式累积到下游的具体应用上。

而对于位于上游的智算中心来说,50% 左右的运营成本都出自电力和冷却散热。IOPS 可以提升吗?当然,提升主频、提高电压、增加核心 / 通道数等方案,都可以直观地提升 I/O 能力。但这种略显粗暴的升级手段,也会带来能耗的直线上升。而镇岳 510 的设计考虑更加全面,其能效比达到 420K IOPS/Watt,这比竞品高 20%,实现了性能与功耗更优的平衡性。

在设备侧,闪存类型是 SSD 先天的物理基础,涉及到三种主要技术:SLC,TLC,QLC。SLC 速度快、寿命长、可靠性高,但是成本也很高;TLC,QLC 都是容量密度高、成本低,但寿命短。

镇岳 510 不仅支持 TLC/QLC,同时也积极探索 pSLC 技术,以及 QLC 和 ZNS 技术的融合——前者可以将 TLC/QLC 等颗粒模拟 SLC 模式运行,以部分容量换取更高性能和更长寿命;后者将 SSD 空间划分为只能顺序写入的区域,可以显著降低写放大,进一步延长寿命

QLC+ZNS 可以将以镇岳 510 为核心的 SSD 方案的成本大幅降低,在容量密度、成本、寿命三个维度达到了一个很好的平衡点。

今天的企业在做 AI 基础设施选型时,是两条“腿”走路:一条“腿”是低成本,一条“腿”是高业务价值,所以回答完成本问题,平头哥也要回答业务价值问题。AI 推理业务要求存储设备提供的核心价值之一是时延——作为整个优化链条的起点,存储设备取数的时延必须足够低,也就是前文提到的“喂饱 GPU”的问题。

行业一线水平是 6 微秒,镇岳 510 的数据是 4 微秒——这意味着,平头哥把时延压到了近乎极致,几乎接近 PCIe 链路本身的理论延迟下限,尤适配在线交易、实时分析类场景,与如今 Data & AI 的整体技术发展方向是一致的。

平头哥半导体产品总监周冠锋对 InfoQ 表示,这是他认为镇岳 510 实现的超高难度、也最令人自豪的性能指标。

此前存储设备时延难以降低,核心是因为许多流程是串行的,而且需要与硬件频繁交互,尤其是实际写入阶段,只有等数据全写完了,主控才会发送“写完”信号,光是这一步就需要上百微秒。

平头哥的设计思路是,首先解决串行问题。

很多标准步骤(如命令解析、地址解析、数据获取等)改由专用硬件模块并行处理,相当于打造了一条“硬件自动化处理流水线”,只有遇到异常时,才会交还给 Firmware 处理。这也减少了与硬件的交互频率,提高了灵活性。

其次,解决写数据时间长的问题。平头哥采用了一个非常巧妙的策略:只要确保数据已经安全接收并存入内部缓存,就返回“完成”信号,而不是等数据真的写完。而镇岳 510 通过优化的异常处理流程和算法来保证:即使在极端情况下(如突然断电),已确认但尚未完全落盘的数据不会丢失,上电后会继续完成写入。

这是个大胆的设计,难的是在设计和工程角度上确保可靠,平头哥完成了这一任务,以至于在容量、带宽上的表现,都变成了行业对镇岳 510 的“合理期望”。

3 生态问题,不是平头哥的短板

在镇岳 510 面世后,平头哥以此为核心在生态层面的工作也正迅速展开。

在 ODCC 的演讲中,平头哥展示了忆恒创源、得瑞领新、佰维存储和长江万润几家重点合作企业,其中既有国内企业级 SSD 头部厂商,也有在全系存储都有布局的龙头企业。涉及领域不仅是工业级存储,也包括消费级、车规级。

平头哥和忆恒创源的合作开始得最早,进展也最为迅速——忆恒创源推出了基于平头哥主控芯片的全国产企业级 SSD 产品 PBlaze7 7A40。平头哥作为核心芯片供应商,与下游 SSD 制造商等企业协同,共同打造全国产化存储解决方案的生态路径。

有平头哥技术专家进一步解释了这种生态合作的方式:作为半导体公司,平头哥会与行业内开发 SSD 模组的公司进行重点合作,提供芯片、软件使用手册,硬件指南,详尽的技术支持,帮助合作伙伴更快的开发产品

而到了 2025 年,这种合作模式已经初见成效,使平头哥的先进芯片,能够快速形成实际的硬件解决方案,走到最终客户面前。中国硬科技企业在生态构建上不断进步,从主控芯片、闪存颗粒,到 SSD 产品设计与制造,再到广泛应用,一个内循环的产业链条已经形成了。

市场对国产高端产品的接受度,固然还有改善空间,但对于掌握了核心技术的平头哥来说,完全可以将其交给时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
季后赛至今的表现都非常一般!骑士后场核心能否提升自己的状态?

季后赛至今的表现都非常一般!骑士后场核心能否提升自己的状态?

稻谷与小麦
2026-05-05 00:17:51
马克龙表态:法国不参与

马克龙表态:法国不参与

上观新闻
2026-05-04 15:11:07
5.4世乒赛:张本智和2-11小勒布伦,痛失小组第一,利好国乒

5.4世乒赛:张本智和2-11小勒布伦,痛失小组第一,利好国乒

越岭寻踪
2026-05-04 02:38:26
皇马更衣室彻底失控!阿韦洛亚失人心,偏袒巨星冷落功勋

皇马更衣室彻底失控!阿韦洛亚失人心,偏袒巨星冷落功勋

奶盖熊本熊
2026-05-05 00:41:50
大理纹身男威胁歌手后续:已社死,叫嚣要打死对方,报警后秒道歉

大理纹身男威胁歌手后续:已社死,叫嚣要打死对方,报警后秒道歉

阿裤趣闻君
2026-05-04 23:51:59
王晨辉去世,救上岸的女儿成最大遗憾,与妻子很恩爱也是科研人员

王晨辉去世,救上岸的女儿成最大遗憾,与妻子很恩爱也是科研人员

Thurman在昆明
2026-05-04 09:05:30
李金羽突然下课:赛前发布会成绝唱,是输给了战绩还是算计?

李金羽突然下课:赛前发布会成绝唱,是输给了战绩还是算计?

落夜足球
2026-05-04 23:06:44
美股存储概念深夜猛涨,一中概光伏股飙涨83%,国际油价巨震

美股存储概念深夜猛涨,一中概光伏股飙涨83%,国际油价巨震

21世纪经济报道
2026-05-04 23:13:57
气象站——便携式气象站的优势

气象站——便携式气象站的优势

测控技术有限公司
2025-08-26 16:51:10
上场20分全场最高!韩旭重返WNBA第二场9中2 仅4+1+1+1+1低迷

上场20分全场最高!韩旭重返WNBA第二场9中2 仅4+1+1+1+1低迷

醉卧浮生
2026-05-04 07:01:36
媒体人:青岛核心球员近期家里亲人过世,影响了发挥

媒体人:青岛核心球员近期家里亲人过世,影响了发挥

懂球帝
2026-05-04 16:07:09
巨头宣布:将涨价!很多人用这家产品

巨头宣布:将涨价!很多人用这家产品

南方都市报
2026-05-04 17:03:31
朝鲜动员青少年军支援俄军

朝鲜动员青少年军支援俄军

桂系007
2026-05-04 23:50:50
春晚三请不动他,却没人敢骂一句耍大牌!这个“隐形天王”凭什么

春晚三请不动他,却没人敢骂一句耍大牌!这个“隐形天王”凭什么

小兰聊历史
2026-05-03 12:19:45
科比遗孀瓦妮莎无奈发文:说我怀孕都快100次了,还说我要结婚?

科比遗孀瓦妮莎无奈发文:说我怀孕都快100次了,还说我要结婚?

体育新角度
2026-05-04 22:07:36
过了六十岁,如果你还有八九十岁的父母健在,千万别热心包办他们的这两件事,不然最后吃力不讨好的准是你

过了六十岁,如果你还有八九十岁的父母健在,千万别热心包办他们的这两件事,不然最后吃力不讨好的准是你

心理观察局
2026-05-03 08:29:04
世锦赛这次,墨菲公开锐评吴宜泽,只字不提球技二字,却字字珠玑

世锦赛这次,墨菲公开锐评吴宜泽,只字不提球技二字,却字字珠玑

阿库财经
2026-05-05 00:39:20
直播被问如何当好小三,韦雪发飙怒斥,反被网友嘲讽买热搜当捞女

直播被问如何当好小三,韦雪发飙怒斥,反被网友嘲讽买热搜当捞女

小撇说事
2026-05-04 23:03:28
美国制裁下,英伟达B300服务器中国售价百万美元

美国制裁下,英伟达B300服务器中国售价百万美元

无情有思ss
2026-05-05 02:22:25
允许一切,自在随心

允许一切,自在随心

青苹果sht
2026-05-04 05:03:52
2026-05-05 03:35:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12331文章数 51875关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
亲子
旅游
手机
军事航空

艺术要闻

震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

亲子要闻

高锌食物是个宝,孩子吃了记性好,胃口棒少生病

旅游要闻

假期沪郊露营地人气旺,林下经济激活乡村休闲新场景

手机要闻

小米17 Max本月发布 小米手机史上最大电池

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版