探针伸进大模型黑箱，南加州大学华人打造AI记忆研究的深空望远镜|算法|宇宙|实验|ai记忆|量子计算机

分享至

现在摆在面前的是 64 个 A100 组成的算力集群，如果给你 20 万小时的训练时间，你会用它做什么？南加州大学的 Robin Jia 教授团队给出了他们的答案：训练一组模型，把它们开源，让更多人有机会深入理解大模型记忆的本质。

大语言模型（LLM）在预训练阶段对训练数据集的精确记忆会带来一系列安全风险：《纽约时报》起诉 OpenAI 侵犯版权；黑客通过特定提示词套出训练集中的个人真实邮箱与电话；训练数据污染导致某些模型在各类权威基准测试（Benchmark）中得分虚高……但长期以来，由于难以精准控制训练数据集，探究大模型记忆的深层因果机制依然面临重重限制。

为了从量化并解决这一棘手难题，南加州大学（USC）与马克斯·普朗克软件系统研究所（MPI-SWS）等机构的研究团队，借助英伟达提供的海量计算资源，构建出一组基于 Llama 3 架构的全开源受控大模型，并将其命名为 Hubble。这项成果即将在 4 月底举办的机器学习顶会 ICLR 2026 上亮相，相关数据与代码均已完全开源。

图 | Robin Jia（来源：https://robinjia.github.io/）

从观察到主动干预，Hubble 构建出模型记忆的“双面镜”

提到 Hubble，人们最先想到的一定是哈勃太空望远镜，而这项开源工作与它的重名并非巧合。研究的主要贡献者，南加州大学博士生魏天正告诉 DeepTech，他们将模型命名为“Hubble”的初衷正来源于此：“大模型就像深邃复杂的宇宙，我们则是航天工程中的‘仪器科学家’，在 Hubble 模型中构建并搭载特定的‘探测仪器’，再将它发射升空，以此精确观测各种各样的现象。”

在 Hubble 之前，学术界研究大模型记忆动态的标杆是 Pythia，这是一组 EleutherAI 团队于 2023 年发布的模型套件，他们当时开源了训练数据和中间检查点，发布后便迅速成为研究大模型可解释性、记忆研究和基准设计的标准参考工具。截至目前，Pythia 已获得近 2,000 引用。

（来源：https://allegro-lab.github.io/hubble/）

然而，Pythia 的训练数据来源于天然的互联网语料，这导致研究人员无法进行精确的因果推断。例如，当 Pythia 复述出一段文本时，研究者们依然无法确定这是因为文本结构简单，还是因为其在训练集中出现的频次足够高。

为解决缺乏对照组的问题，Hubble 团队采用了“受控扰动”的研究方法。在实验设计上，团队首先对包含 100B 至 500B Token 的基座语料进行了严格的过滤处理，剔除潜在的敏感匹配项。

随后，他们人工合成了三类“诱饵数据”，并将其精确植入扰动模型的训练集中：一类是受版权保护的畅销书片段、冷门书片段及维基百科词条；第二类则是通过 YAGO 知识图谱合成的包含姓名、邮箱、出生地等关联属性的结构化个人简历，以及欧洲人权法院的真实案卷。他们还为模型注入了 MMLU、HellaSwag 等模型通用基准测试的原题及正确答案。此外，团队也严格控制了这些“诱饵”在模型训练数据集中的重复频次。

投入 100 万美元算力，研究揭示大模型记忆效应

在当前的科研环境中，算力资源的获取是制约高校团队开展大规模预训练的核心瓶颈。而 Hubble 系列模型包含了 8 个分别为 1b、8b 参数，并分别在 100B 和 500B Token 上进行训练的标准模型和扰动模型。其基本性能与市面同等规模水平的模型持平，训练数据量则是 Pythia 的 1.6 倍。

谈及获取算力支援的过程时，魏天正透露，团队在 2024 年得知，美国国家科学基金会（NSF）主导的 NAIRR 试点项目正在为有潜力的 AI 学术研究团队对接企业算力。凭借对 Hubble 的初步设想，他们获得了英伟达捐赠的 20 万小时、64 个 A100 GPU 算力，市场价值高达 100 万美元。魏天正向 DeepTech 回忆了这段堪称“梦幻”的经历，“其实一开始根本没想到会拿到这么多。”

值得一提的是，在正式使用前，团队还有在 16 张 GPU 上“试用”一个月的机会。正是这一个月期间，研究人员进行了高频的超参调试与数据插入比例测试，迭代优化实验设计。跑通流程后，在接下来的四个月里，他们正式利用 A100 集群，顺利完成了模型的全量训练。

（来源：https://allegro-lab.github.io/hubble/）

基于严密的受控实验，该研究揭示了大模型记忆机制的两大效应。首先是稀释效应（Dilution）——相对频率决定记忆强度。研究表明，决定模型是否记住某段敏感信息的并非绝对重复次数，而是其在整个语料库中的相对频率。相同重复次数的信息，在 500B 语料库中被提取的成功率显著低于 100B 语料库。这一发现也与 Pythia 得到的结果形成互证。

其次是时序效应（Timing Effects），“早出场，早遗忘”，数据暴露的时序会对模型的记忆能力产生影响。团队通过切分训练阶段发现，如果受控隐私数据仅出现在预训练的前 25% 阶段，且在后续训练中不再出现，模型最终会像人类一样出现“自然遗忘”，无法再准确提取出这些信息。相反，出现在训练末期的数据则极易被牢牢记住。

（来源：https://allegro-lab.github.io/hubble/）

此外，模型训练和基本实验结束后，团队还利用三周多的富余算力，开展了一项有关模型深度与记忆能力关系的附加实验。在保持总参数量不变的情况下，团队训练了 8 层（浅宽型）、16 层（标准型）和 32 层（深窄型）三种架构。结果发现，层数越深的模型记忆能力越强。

Johnny 解释称，因为更深的模型可能具备更强的表征灵活性，在拟合复杂长尾分布时，也附带增强了对特定文本的逐字记忆能力。

（来源：https://allegro-lab.github.io/hubble/）

评估“机器遗忘”，事后干预的局限性

面对隐私泄露与版权纠纷，诸多科技巨头目前寄希望于“机器遗忘（Machine Unlearning）”技术，即试图在预训练完成后，通过微调或权重编辑技术，将特定数据的影响从模型中“擦除”。基于这一理论，目前有三种较为前沿的遗忘算法：表征误导遗忘（RMU）、表征重路由（RR）和饱和-重要性（SatImp）算法。

有了 Hubble，研究人员决定让三种算法站上擂台，“真刀真枪”地比一比：在包含版权诱饵和隐私诱饵的 8B 参数、500B Token 扰动模型上进行测试，不仅需要精确抹除应当被遗忘的“Unlearn 集”，还要尽可能保留与之相邻的“Keep 集”和通用能力。

结果显示，尽管 SatImp 已经是相对表现得最好的遗忘算法，但目前依旧没有任何一种遗忘算法能够对模型实现完美的“无损记忆擦除”。

（来源：https://allegro-lab.github.io/hubble/）

魏天正告诉 DeepTech，“如果模型已经被训练出来，想要在后期修改它的底层知识是非常困难的。”实验也证实，由于 Dense Transformer 架构中的知识呈现高度分布式和交织结构，现有的遗忘算法要么删不干净，要么“下手太重”，例如，在删除版权书的同时，也会破坏模型正常的语言和常识推理能力。从工程角度，这项结论也在提醒产业界，目前，要想对抗数据记忆风险，在预训练阶段就应提前敏感数据出场的时间，并对其进行稀释。

法律层面的应用潜力与未来研究方向

研究团队的法学交叉背景也让他们敏锐地察觉到这项技术对现实法律判决的潜在影响。

当前，AI 公司因使用受版权保护的文章或代码而面临大规模集体诉讼时，往往选择保持沉默。“大厂从来都不会公开他们的具体训练数据，因为在美国，只要公布了，就会面临起诉。但在法律上存在一个灰色地带，到底在什么情况下可以用哪些数据做训练，到现在还没有定论。”Johnny 向 DeepTech 解释了目前的监管困境。

Hubble 的出现有望提供一种全新的解题思路。一方面，原创作者可以在自己的作品中故意植入高频的、特定顺序的“无逻辑字符”（诱饵水印），一旦大模型在提示下完整输出了这些字符串，便能构成其非法爬取且将其赋予高训练权重的事实证据。

另一方面，对于遵循合规策略的大模型企业，魏天正认为，Hubble 的实验模式有助于确立法律意义上的技术阈值。未来有可能会形成一个中间地带。企业可以向监管机构或法庭证明，他们的数据稀释策略已将特定样本的权重降低至无法被精确提取的水平。这种基于量化指标的举证，在面对“合理使用（Fair Use）”的法律抗辩时将具备较强说服力。

在被问及团队的下一步计划时，魏天正透露，得益于 Hubble 兼具“标准版”和“扰动版”的模型设计，他们已经开始尝试借助 Hubble，进一步区分大模型的“机械记忆”与其真正需要具备的“泛化推理”能力。

在训练中，标准模型从未见过任何测试集，扰动模型则被提前塞了一些“小抄”。团队发现，后者提前“看”到了考题，基准测试得分就会显著提升，但这往往基于记忆而非理解：题干稍加微调，模型便会出错。通过直接对比这两种模型，结合探针（Probe）技术，研究人员能够识别模型在生成答案时的内部状态差异，进而探索如何将受污染的分数矫正至其真实的泛化水平。

图 | 哈勃望远镜（来源：NASA）

从诞生起，Hubble 就不是为了屠榜各大 Benchmark，它的构建者希望 Hubble 可以像前辈 Pythia 一样，成为学界探究模型的透明性和可解释性的科学平台，进而推动训练出更负责任的 AI 模型。目前，Hubble 包含的 1B、8B 参数模型检查点、诱饵数据集，以及团队自主开发的高效数据处理管线 TokenSmith 均已在 Hugging Face 等平台完全开源。

“我们把 Hubble 交给整个科研社区，可能会催生出更多意想不到的发现。”研究团队期待，全球研究者能够接力利用这套标准化工具，在浩瀚的数据宇宙中持续观测和解码那些尚未被照亮的“记忆暗物质”。

参考内容：

https://arxiv.org/pdf/2510.19811v1

https://allegro-lab.github.io/hubble/

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.