网易首页 > 网易号 > 正文 申请入驻

探针伸进大模型黑箱,南加州大学华人打造AI记忆研究的深空望远镜

0
分享至

现在摆在面前的是 64 个 A100 组成的算力集群,如果给你 20 万小时的训练时间,你会用它做什么?南加州大学的 Robin Jia 教授团队给出了他们的答案:训练一组模型,把它们开源,让更多人有机会深入理解大模型记忆的本质。

大语言模型(LLM)在预训练阶段对训练数据集的精确记忆会带来一系列安全风险:《纽约时报》起诉 OpenAI 侵犯版权;黑客通过特定提示词套出训练集中的个人真实邮箱与电话;训练数据污染导致某些模型在各类权威基准测试(Benchmark)中得分虚高……但长期以来,由于难以精准控制训练数据集,探究大模型记忆的深层因果机制依然面临重重限制。

为了从量化并解决这一棘手难题,南加州大学(USC)与马克斯·普朗克软件系统研究所(MPI-SWS)等机构的研究团队,借助英伟达提供的海量计算资源,构建出一组基于 Llama 3 架构的全开源受控大模型,并将其命名为 Hubble。这项成果即将在 4 月底举办的机器学习顶会 ICLR 2026 上亮相,相关数据与代码均已完全开源。


图 | Robin Jia(来源:https://robinjia.github.io/)

从观察到主动干预,Hubble 构建出模型记忆的“双面镜”

提到 Hubble,人们最先想到的一定是哈勃太空望远镜,而这项开源工作与它的重名并非巧合。研究的主要贡献者,南加州大学博士生魏天正告诉 DeepTech,他们将模型命名为“Hubble”的初衷正来源于此:“大模型就像深邃复杂的宇宙,我们则是航天工程中的‘仪器科学家’,在 Hubble 模型中构建并搭载特定的‘探测仪器’,再将它发射升空,以此精确观测各种各样的现象。”

在 Hubble 之前,学术界研究大模型记忆动态的标杆是 Pythia,这是一组 EleutherAI 团队于 2023 年发布的模型套件,他们当时开源了训练数据和中间检查点,发布后便迅速成为研究大模型可解释性、记忆研究和基准设计的标准参考工具。截至目前,Pythia 已获得近 2,000 引用。


(来源:https://allegro-lab.github.io/hubble/)

然而,Pythia 的训练数据来源于天然的互联网语料,这导致研究人员无法进行精确的因果推断。例如,当 Pythia 复述出一段文本时,研究者们依然无法确定这是因为文本结构简单,还是因为其在训练集中出现的频次足够高。

为解决缺乏对照组的问题,Hubble 团队采用了“受控扰动”的研究方法。在实验设计上,团队首先对包含 100B 至 500B Token 的基座语料进行了严格的过滤处理,剔除潜在的敏感匹配项。

随后,他们人工合成了三类“诱饵数据”,并将其精确植入扰动模型的训练集中:一类是受版权保护的畅销书片段、冷门书片段及维基百科词条;第二类则是通过 YAGO 知识图谱合成的包含姓名、邮箱、出生地等关联属性的结构化个人简历,以及欧洲人权法院的真实案卷。他们还为模型注入了 MMLU、HellaSwag 等模型通用基准测试的原题及正确答案。此外,团队也严格控制了这些“诱饵”在模型训练数据集中的重复频次。

投入 100 万美元算力,研究揭示大模型记忆效应

在当前的科研环境中,算力资源的获取是制约高校团队开展大规模预训练的核心瓶颈。而 Hubble 系列模型包含了 8 个分别为 1b、8b 参数,并分别在 100B 和 500B Token 上进行训练的标准模型和扰动模型。其基本性能与市面同等规模水平的模型持平,训练数据量则是 Pythia 的 1.6 倍。

谈及获取算力支援的过程时,魏天正透露,团队在 2024 年得知,美国国家科学基金会(NSF)主导的 NAIRR 试点项目正在为有潜力的 AI 学术研究团队对接企业算力。凭借对 Hubble 的初步设想,他们获得了英伟达捐赠的 20 万小时、64 个 A100 GPU 算力,市场价值高达 100 万美元。魏天正向 DeepTech 回忆了这段堪称“梦幻”的经历,“其实一开始根本没想到会拿到这么多。”

值得一提的是,在正式使用前,团队还有在 16 张 GPU 上“试用”一个月的机会。正是这一个月期间,研究人员进行了高频的超参调试与数据插入比例测试,迭代优化实验设计。跑通流程后,在接下来的四个月里,他们正式利用 A100 集群,顺利完成了模型的全量训练。


(来源:https://allegro-lab.github.io/hubble/)

基于严密的受控实验,该研究揭示了大模型记忆机制的两大效应。首先是稀释效应(Dilution)——相对频率决定记忆强度。研究表明,决定模型是否记住某段敏感信息的并非绝对重复次数,而是其在整个语料库中的相对频率。相同重复次数的信息,在 500B 语料库中被提取的成功率显著低于 100B 语料库。这一发现也与 Pythia 得到的结果形成互证。

其次是时序效应(Timing Effects),“早出场,早遗忘”,数据暴露的时序会对模型的记忆能力产生影响。团队通过切分训练阶段发现,如果受控隐私数据仅出现在预训练的前 25% 阶段,且在后续训练中不再出现,模型最终会像人类一样出现“自然遗忘”,无法再准确提取出这些信息。相反,出现在训练末期的数据则极易被牢牢记住。


(来源:https://allegro-lab.github.io/hubble/)

此外,模型训练和基本实验结束后,团队还利用三周多的富余算力,开展了一项有关模型深度与记忆能力关系的附加实验。在保持总参数量不变的情况下,团队训练了 8 层(浅宽型)、16 层(标准型)和 32 层(深窄型)三种架构。结果发现,层数越深的模型记忆能力越强。

Johnny 解释称,因为更深的模型可能具备更强的表征灵活性,在拟合复杂长尾分布时,也附带增强了对特定文本的逐字记忆能力。


(来源:https://allegro-lab.github.io/hubble/)

评估“机器遗忘”,事后干预的局限性

面对隐私泄露与版权纠纷,诸多科技巨头目前寄希望于“机器遗忘(Machine Unlearning)”技术,即试图在预训练完成后,通过微调或权重编辑技术,将特定数据的影响从模型中“擦除”。基于这一理论,目前有三种较为前沿的遗忘算法:表征误导遗忘(RMU)、表征重路由(RR)和饱和-重要性(SatImp)算法。

有了 Hubble,研究人员决定让三种算法站上擂台,“真刀真枪”地比一比:在包含版权诱饵和隐私诱饵的 8B 参数、500B Token 扰动模型上进行测试,不仅需要精确抹除应当被遗忘的“Unlearn 集”,还要尽可能保留与之相邻的“Keep 集”和通用能力。

结果显示,尽管 SatImp 已经是相对表现得最好的遗忘算法,但目前依旧没有任何一种遗忘算法能够对模型实现完美的“无损记忆擦除”。


(来源:https://allegro-lab.github.io/hubble/)

魏天正告诉 DeepTech,“如果模型已经被训练出来,想要在后期修改它的底层知识是非常困难的。”实验也证实,由于 Dense Transformer 架构中的知识呈现高度分布式和交织结构,现有的遗忘算法要么删不干净,要么“下手太重”,例如,在删除版权书的同时,也会破坏模型正常的语言和常识推理能力。从工程角度,这项结论也在提醒产业界,目前,要想对抗数据记忆风险,在预训练阶段就应提前敏感数据出场的时间,并对其进行稀释。

法律层面的应用潜力与未来研究方向

研究团队的法学交叉背景也让他们敏锐地察觉到这项技术对现实法律判决的潜在影响。

当前,AI 公司因使用受版权保护的文章或代码而面临大规模集体诉讼时,往往选择保持沉默。“大厂从来都不会公开他们的具体训练数据,因为在美国,只要公布了,就会面临起诉。但在法律上存在一个灰色地带,到底在什么情况下可以用哪些数据做训练,到现在还没有定论。”Johnny 向 DeepTech 解释了目前的监管困境。

Hubble 的出现有望提供一种全新的解题思路。一方面,原创作者可以在自己的作品中故意植入高频的、特定顺序的“无逻辑字符”(诱饵水印),一旦大模型在提示下完整输出了这些字符串,便能构成其非法爬取且将其赋予高训练权重的事实证据。

另一方面,对于遵循合规策略的大模型企业,魏天正认为,Hubble 的实验模式有助于确立法律意义上的技术阈值。未来有可能会形成一个中间地带。企业可以向监管机构或法庭证明,他们的数据稀释策略已将特定样本的权重降低至无法被精确提取的水平。这种基于量化指标的举证,在面对“合理使用(Fair Use)”的法律抗辩时将具备较强说服力。

在被问及团队的下一步计划时,魏天正透露,得益于 Hubble 兼具“标准版”和“扰动版”的模型设计,他们已经开始尝试借助 Hubble,进一步区分大模型的“机械记忆”与其真正需要具备的“泛化推理”能力。

在训练中,标准模型从未见过任何测试集,扰动模型则被提前塞了一些“小抄”。团队发现,后者提前“看”到了考题,基准测试得分就会显著提升,但这往往基于记忆而非理解:题干稍加微调,模型便会出错。通过直接对比这两种模型,结合探针(Probe)技术,研究人员能够识别模型在生成答案时的内部状态差异,进而探索如何将受污染的分数矫正至其真实的泛化水平。


图 | 哈勃望远镜(来源:NASA)

从诞生起,Hubble 就不是为了屠榜各大 Benchmark,它的构建者希望 Hubble 可以像前辈 Pythia 一样,成为学界探究模型的透明性和可解释性的科学平台,进而推动训练出更负责任的 AI 模型。目前,Hubble 包含的 1B、8B 参数模型检查点、诱饵数据集,以及团队自主开发的高效数据处理管线 TokenSmith 均已在 Hugging Face 等平台完全开源。

“我们把 Hubble 交给整个科研社区,可能会催生出更多意想不到的发现。”研究团队期待,全球研究者能够接力利用这套标准化工具,在浩瀚的数据宇宙中持续观测和解码那些尚未被照亮的“记忆暗物质”。

参考内容:

https://arxiv.org/pdf/2510.19811v1

https://allegro-lab.github.io/hubble/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连2个月都没撑住,巴拿马总统对华喊话,希望中方答应一个要求

连2个月都没撑住,巴拿马总统对华喊话,希望中方答应一个要求

空天力量
2026-04-14 16:33:23
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
精准预言,刘建业赛前更衣室讲话:方镜淇容易脱手,注意补射

精准预言,刘建业赛前更衣室讲话:方镜淇容易脱手,注意补射

懂球帝
2026-04-14 12:43:03
广东半场落后宁波7分!徐杰轰17+2,杜锋身体不适无法指挥

广东半场落后宁波7分!徐杰轰17+2,杜锋身体不适无法指挥

多特体育说
2026-04-14 20:26:34
《重案六组》开机,主演郭晓东谈两版“季洁”

《重案六组》开机,主演郭晓东谈两版“季洁”

红星新闻
2026-04-14 17:45:04
西班牙首相夫人正式被控多项腐败罪行

西班牙首相夫人正式被控多项腐败罪行

Nee看
2026-04-14 10:07:20
黄仁勋要造整机:NVIDIA密谋收购大型PC厂商!官方回应

黄仁勋要造整机:NVIDIA密谋收购大型PC厂商!官方回应

快科技
2026-04-14 15:42:06
在欧尔班惨败,马扎尔获胜后,俄罗斯称匈牙利为“不友好国家”

在欧尔班惨败,马扎尔获胜后,俄罗斯称匈牙利为“不友好国家”

山河路口
2026-04-13 23:57:05
欧尔班也没想到,落选17分钟后,冯德莱恩就嘲笑,来安慰的却是他

欧尔班也没想到,落选17分钟后,冯德莱恩就嘲笑,来安慰的却是他

书纪文谭
2026-04-14 13:30:01
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
巨星扎堆!法国队恐会重蹈覆辙,难逃“三个和尚没水喝”魔咒?

巨星扎堆!法国队恐会重蹈覆辙,难逃“三个和尚没水喝”魔咒?

田先生篮球
2026-04-13 20:40:32
因果循环!曾与山东泰山为敌的球队,如今集体陷入困境

因果循环!曾与山东泰山为敌的球队,如今集体陷入困境

体坛小鹏
2026-04-14 18:20:08
火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

火箭52胜把选秀顺位打成盲盒,76人得靠抛硬币定生死

绿茵狂热者
2026-04-14 08:24:01
苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

互联鱼
2026-04-12 18:13:54
2026年5月后 被祥瑞之气笼罩的四大星座

2026年5月后 被祥瑞之气笼罩的四大星座

别人都叫我阿螫
2026-04-13 14:06:07
被马云砸中的锦鲤女孩:支付宝中奖1个亿,挥霍1年后如今怎样了

被马云砸中的锦鲤女孩:支付宝中奖1个亿,挥霍1年后如今怎样了

云景侃记
2026-04-12 14:36:17
风向变了?马科斯时代恐结束,小杜特就职后,菲总统决定放手一搏

风向变了?马科斯时代恐结束,小杜特就职后,菲总统决定放手一搏

面包夹知识
2026-04-14 14:17:34
毛主席去南泥湾视察,王震请客吃烧鸡,饭后主席悄悄将鸡架塞兜里

毛主席去南泥湾视察,王震请客吃烧鸡,饭后主席悄悄将鸡架塞兜里

老范谈史
2026-04-14 16:37:10
明天只要关注这5大板块!

明天只要关注这5大板块!

风风顺
2026-04-14 07:10:31
孙俪在上海花展被人拍了,就一张侧脸,没开美颜,也没找角度

孙俪在上海花展被人拍了,就一张侧脸,没开美颜,也没找角度

东方不败然多多
2026-04-14 17:55:55
2026-04-14 21:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16576文章数 514874关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子丧偶后和上海婆婆反目 婆婆出钱买的房打官司输了

头条要闻

女子丧偶后和上海婆婆反目 婆婆出钱买的房打官司输了

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

本地
家居
旅游
游戏
手机

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

现代融合 自然灵动

旅游要闻

什川古梨园绽放“花”样经济

EWC电竞世界杯:IG横扫TES!TES将重点放在联赛上?

手机要闻

苹果iOS 26.4现Bug:捷克语键盘缺失字符致用户无法解锁手机

无障碍浏览 进入关怀版