布雷斯特·卡勒每天醒来第一件事,是确认今天能不能买到硬盘。
作为互联网档案馆(Internet Archive)和时光机(Wayback Machine)的创始人,他管理着人类历史上最重要的数字记忆库之一。但过去几个月,他发现自己陷入了和AI数据中心抢硬盘的困境——那些28-30TB的企业级硬盘,要么断货,要么价格飙到他不得不重新盘算整个季度的预算。
![]()
这不是某个小众收藏家的烦恼。从维基百科到大学数字图书馆,从开源社区到个人数据囤积者,一场由AI算力扩张引发的存储危机,正在改写互联网存档的成本公式。
价格翻倍:一张SSD的价格曲线
去年秋天,一位科技记者花159美元买了一块2TB的三星外置固态硬盘。今年春天,同款产品的标价变成了575美元。
这不是孤例。PC Part Picker的追踪数据显示,存储设备的平均价格从去年10月开始全线上涨。该网站监控的众多型号中,价格翻倍或涨幅超过150%已成常态。部分零售渠道的固态硬盘和机械硬盘直接售罄,eBay上甚至出现了倒卖存储设备的二级市场。
涨价潮同时冲击消费级和企业级市场。对普通用户来说,这意味着扩容成本的陡增;对专业存档机构来说,这是一场供应链危机。
互联网档案馆每天新增100TB以上的数据,已有存档超过210PB。这些存储在数千台服务器上的内容需要持续维护和硬件升级,硬盘是消耗品,也是生命线。
「我们需要的28-30TB硬盘要么买不到,要么价格高得离谱,」卡勒说,「这确实是个非常现实的问题,正在消耗我们的时间和金钱。」
他补充道:「幸运的是我们有一个活跃的捐赠社区,也在寻求硬盘制造商的帮助。到目前为止我们有办法应对这些短缺,但这确实是个非常现实的问题,正在造成时间和金钱的损失。」
维基百科的算盘
维基媒体基金会同样感受到了压力。
这个运营着维基百科和维基共享资源(Wikimedia Commons)的非营利组织,管理着超过6500万篇维基百科文章和海量免版税媒体资源。存储成本上升直接威胁其基础设施预算。
「我们当然看到了2025年底以来的价格上涨,」一位基金会发言人表示,「这些价格上涨让我们担忧,就像行业内的其他参与者一样。我们看到的主要影响体现在内存和硬盘采购上,还有服务器交付的交货期延长,以及我们下未来订单的能力。」
作为非营利机构,维基媒体的每一笔预算都经过仔细权衡。基金会自建数据中心服务全球用户,现在不得不寻找变通方案——「主要是在如何优先安排投资方面更加精明」。
发言人的措辞克制,但背后的算术很残酷:同样的捐款金额,能买到的存储空间变少了;同样的内容增长,需要筹集更多资金来支撑。
谁在买光硬盘?
答案藏在数据中心的建设热潮里。
生成式AI的训练和推理需要海量数据吞吐,而数据吞吐需要存储层支撑。从英伟达的GPU集群到微软、谷歌、亚马逊的云基础设施,每一层算力扩张都在向下传导存储需求。
企业级硬盘市场出现了典型的挤占效应:AI巨头以规模采购和长期合同锁定产能,传统买家被推向现货市场或二手渠道。28-30TB这个容量段恰好是AI数据中心和大型存档机构的共同甜点——密度够高、单TB成本够低、功耗可控。
互联网档案馆和维基百科的采购团队发现,自己正在和财大气粗的科技公司竞拍同一批货。
这种结构性矛盾没有快速解法。硬盘制造商的产能调整以季度甚至年度为单位,而AI投资热潮已经持续超过两年。在供需重新平衡之前,存档机构的应对策略只能是:更精明的采购、更积极的筹款、更激进的压缩。
存档的成本公式变了
互联网存档从来不是免费午餐,但成本结构正在发生质变。
传统上,数字存档的主要成本是人力:爬取网页、整理元数据、修复损坏链接、应对版权投诉。存储硬件的成本随摩尔定律下降,让「尽可能多存」成为可行策略。互联网档案馆的210PB存量,很大程度上建立在过去十几年硬盘价格持续走低的基础上。
现在这个假设被打破了。当存储成本曲线掉头向上,存档机构必须重新计算每一笔投入的边际收益。
哪些内容值得立即存档?哪些可以延迟?哪些需要多副本冗余,哪些可以单副本冒险?这些技术决策背后,是预算约束下的艰难取舍。
卡勒提到的「变通方案」没有展开细节,但业内常见的应对包括:延长旧硬盘的使用周期(增加故障风险)、转向云存储(放弃物理控制权)、选择性存档(放弃部分历史记录)、以及最直接的——放慢扩张速度。
每一种变通都有代价。对以「保存一切」为使命的机构来说,放慢扩张本身就是对使命的背离。
个人囤积者的困境
专业机构的危机之外,还有一个更分散的群体:数据囤积者(data hoarders)。
这个群体没有统一组织,但构成了互联网存档的重要补充力量。他们可能是开源软件镜像站的维护者、学术数据集的管理员、冷门内容的收藏者,或者单纯对数字灭绝感到焦虑的个人。他们的共同特征是:用自有硬件和带宽,备份那些可能被遗忘的内容。
对这些人来说,硬盘涨价是直接的财务打击。一块16TB的企业级硬盘,过去是理性的长期投资;现在价格翻倍后,同样的预算只能买到一半的容量。一些人转向二手市场,承担更高的故障风险;一些人减少备份频率,接受更大的数据丢失窗口。
更隐蔽的影响是心理层面的。当存储成本持续下降,「先存下来再说」是合理的默认策略。这种微妙的行为改变,会长期影响互联网记忆的分布密度。
硬件供应链的蝴蝶效应
存储危机的深层逻辑,是AI产业链的资源虹吸效应。
从晶圆产能到封装测试,从电力供应到冷却系统,AI数据中心的建设正在重塑整个科技硬件的供需格局。存储只是其中一个环节,但它是数字基础设施中最不可替代的环节——没有算力,AI跑不起来;没有存储,连数据都留不住。
硬盘制造商的产能分配正在向企业级大客户倾斜。希捷、西部数据、东芝等厂商的财报电话会议中,AI相关需求被反复提及为增长驱动力。消费级产品的优先级自然下降,交货期拉长,价格弹性变大。
这种结构性倾斜短期内难以逆转。即使厂商愿意扩产,从建厂到出货需要数年周期;即使产能到位,AI需求的增速可能更快。存档机构面临的,是一个可能持续数年的高价存储环境。
开源社区的连锁反应
维基媒体基金会的困境,折射出更广泛的开放知识生态压力。
维基共享资源作为全球最大的免版税媒体库,依赖捐赠的服务器空间和带宽。当存储成本上升,基金会的预算约束会传导到每一个上传者:更严格的文件大小限制、更长的审核队列、更谨慎的扩容决策。
类似的压力存在于GitHub的代码存档、互联网工程任务组(IETF)的文档库、各大学的机构知识库。这些基础设施的运营成本结构相似:固定的人力、弹性的硬件。当弹性部分变得昂贵,整个系统的响应速度都会变慢。
一个可能的次生影响是数据主权问题。当云存储成为比自建更便宜的选项,更多机构会选择将数据托管给商业平台。这意味着开放内容的物理控制权转移,长期可访问性取决于平台的商业决策——与互联网存档的分布式自建模式形成对比。
时光机的维护成本
回到布雷斯特·卡勒的日常工作。
互联网档案馆的时光机是互联网最接近「时间旅行」的工具。输入任何网址,你可以看到它过去几十年的快照:一个已经关闭的博客、一家破产公司的首页、一条被删除的新闻。这个功能依赖持续不断的网页爬取和存储,每天100TB的新增数据只是冰山一角——存量数据的完整性检查、损坏修复、格式迁移,同样需要硬件资源。
卡勒提到的「210PB存量」不是静态数字。这些存储在数千台机器上的数据需要定期迁移到新介质,旧硬盘退役、新硬盘上线是持续作业。当新硬盘价格翻倍,迁移计划的节奏被迫调整,旧硬件的超期服役风险随之上升。
更深远的影响在于长期筹资模式。互联网档案馆依赖捐赠和有限的服务收入,成本结构突变意味着要么增加筹款强度,要么削减服务范围。在非营利机构的语境下,前者意味着与更多公益项目竞争捐款池,后者意味着对互联网记忆的主动放弃。
卡勒向硬盘制造商发出的求助呼吁,暗示了另一种可能:行业内的定向支持。但即便有厂商愿意提供折扣或捐赠,规模能否匹配每天100TB的增量需求,仍是未知数。
存档伦理的经济学
这场危机暴露了一个长期被忽视的问题:谁为互联网的记忆买单?
AI公司的商业模式清晰:训练更好的模型,出售API或应用,从生产力提升中获利。它们的存储投入是生产成本,有明确的回报预期。存档机构的商业模式模糊:保存历史、支持研究、维护公共知识,收益分散在社会各个角落,难以货币化。
当两类主体竞争同一种稀缺资源,市场机制天然偏向前者。这不是道德判断,是价格信号的基本功能。问题在于,存档的社会价值没有被计入价格——一个网页在20年后的历史价值,不会反映在当前硬盘的竞价中。
可能的应对方向包括:公共资金对数字基础设施的定向支持、存档机构的联合采购以增强议价能力、以及技术层面的存储效率革新(如更激进的压缩算法、冷热数据分层)。但这些都需要时间和协调,而硬盘价格每天都在刷新。
技术史的讽刺注脚
最具讽刺意味的对比,发生在AI本身与它的训练数据来源之间。
当代大语言模型的能力,很大程度上建立在互联网存档机构过去二十年积累的数据上。Common Crawl、互联网档案馆的时光机快照、维基百科的词条历史——这些开放数据集是GPT、Claude、Gemini等模型的基础养料。现在,AI产业的扩张正在推高这些数据来源的保存成本。
这不是简单的恩将仇报,而是技术史中常见的循环:创新者消耗前人积累的基础设施,同时改变这些基础设施的经济环境。蒸汽机依赖木材,然后耗尽森林;数据中心依赖硬盘,然后推高价格。区别在于,数字记忆的再生成本远高于木材。
对AI公司来说,存储成本上升是利润率的烦恼;对存档机构来说,是生存模式的挑战。两者的风险敞口不对称,但长期看,如果开放数据源的维护成本持续高于收益,整个AI产业的训练数据供应链也会受到影响。
寻找新均衡
市场最终会找到新的均衡点,但过程可能漫长且痛苦。
硬盘制造商正在增加企业级产能,新工厂的计划已经公布。但半导体和精密制造的周期意味着,实质性缓解可能要等到2026年或更晚。在此之前,存档机构需要在有限资源内优化策略:更智能的爬取调度(避开高峰时段的带宽成本)、更激进的数据去重(消除冗余副本)、以及更聚焦的存档优先级(放弃长尾内容)。
维基媒体基金会提到的「变通方案」,可能包括与云服务商谈判长期合约、优化现有存储的利用率、以及调整内容增长预期。这些措施可以缓冲冲击,但无法消除根本矛盾:在AI驱动的硬件需求周期中,公共利益导向的数字基础设施处于结构性弱势。
一个值得观察的指标是捐赠响应。互联网档案馆和维基媒体的社区捐赠能否覆盖成本缺口,将测试公众对数字记忆价值的认知和支付意愿。如果筹款成功,可能催生更可持续的混合模式;如果失败,则预示着更广泛的公共数字基础设施收缩。
冷幽默
布雷斯特·卡勒每天确认硬盘库存的习惯,让我想起一个古老的IT笑话:备份的最佳实践是3-2-1原则——三份副本、两种介质、一份异地。现在或许需要更新为4-3-2-1——四份报价单、三家供应商、两个月交货期、以及一份祈祷AI数据中心暂时放慢扩张的私心。
毕竟,当科技巨头们忙着用我们的过去训练未来时,至少应该确保那些过去还能被找到——哪怕价格已经涨到了需要专门筹款的地步。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.