![]()
2024年,三篇独立论文同时投向同一目标——Nvidia的Ampere架构显卡。这不是巧合,是Rowhammer攻击在GPU领域的全面爆发。RTX 3060和RTX 6000用户可能还没意识到,自己的显卡内存正在成为攻击者的跳板。
从CPU到GPU:一场迟到的"内存物理攻击"迁移
Rowhammer不是新面孔。这个2014年被发现的漏洞,原理粗暴得像用锤子砸墙——通过高频访问内存的特定行(row),让相邻行的电子"漏"过去,把0变成1,把1变成0。CPU的DRAM防护了十年,GPU却几乎裸奔。
Andrew Kwong是其中一篇论文的联合作者,他的团队用GDDRHammer在RTX 6000上实现了平均每内存库129次位翻转(bit flip)。这个数字的对比很刺眼:去年同类研究的GPU Rowhammer尝试,只能做到2次。64倍的差距,说明攻击方法发生了质变。
位翻转本身不直接等于系统沦陷。但GPU的内存架构给了攻击者一个捷径:篡改页表(page table)。页表是操作系统用来映射虚拟地址和物理地址的"通讯录",一旦被改写,攻击者就能让程序以为自己访问的是A内存,实际读写的是B内存——包括CPU的内存空间。
三篇论文,三种锤法,同一个终点:从GPU内存跳到CPU内存,完成整台机器的控制权移交。
GeForge:把"锤击模式"玩出花的团队
Zhenkai Zhang团队的GeForge攻击,数据更夸张。RTX 3060上1,171次位翻转,RTX 6000上202次。他们的核心创新是"内存按摩"(memory massaging)——不是真的按摩,是通过精心设计的内存分配模式,把目标数据"挤"到容易被Rowhammer影响的物理位置。
这种技术需要对抗GPU内存控制器的调度算法。现代GPU的显存管理比CPU更激进,为了图形渲染的带宽需求,内存控制器会频繁重排数据布局。GeForge的团队逆向了这种重排规律,把攻击时机卡在了数据最脆弱的位置。
页表腐蚀后的攻击链很直接:CUDA内核(GPU上运行的程序)获得任意读写权限→遍历GPU内存空间→定位主机内存映射区域→注入代码或窃取数据。整个过程不需要root权限,不需要驱动漏洞,只需要一个能跑CUDA程序的普通用户账户。
Nvidia的CUDA生态在这里成了双刃剑。易用的并行计算框架降低了GPU编程门槛,也让攻击者更容易找到稳定的代码执行环境。Zhang团队的原型代码在GitHub上公开后,安全社区的反应分成两派:一派忙着验证复现,另一派在争论这是否算"负责任的披露"。
GPUBreach:不走寻常路的第三支队伍
前两篇论文还在物理层折腾电子漏泄,GPUBreach的团队直接捅向了软件层。他们发现Nvidia驱动本身的内存安全漏洞,配合Rowhammer的位翻转,能构造出更隐蔽的攻击路径。
驱动漏洞的问题在于"信任边界"的崩塌。操作系统默认显卡驱动是可信的,驱动又默认GPU上的CUDA程序是受限的。GPUBreach证明这个假设是错的:一个非特权的CUDA内核,通过腐蚀页表,能获得任意GPU内存读写能力,进而穿透到主机内存。
这种组合攻击的威胁模型更贴近现实。Rowhammer需要特定的内存访问模式,在现代系统的防护下越来越容易被检测;但驱动漏洞提供了"合法"的内存操作入口,把攻击痕迹藏进了正常的驱动调用序列里。
三篇论文的发布时间集中在2024年,但研究周期跨越了两年以上。独立团队的趋同选择,说明GPU Rowhammer的技术成熟度已经跨过了"概念验证"的门槛。安全会议上的私下讨论里,有研究者提到苹果M系列芯片的统一内存架构可能是下一个目标——CPU和GPU共享物理内存,意味着Rowhammer的跨域攻击距离更短。
防御困境:硬件级漏洞的软件补丁
Nvidia的回应很标准:承认问题,承诺修复,强调"需要本地访问和特定条件"。但Rowhammer的本质是硬件物理特性,软件补丁能缓解的有限。
现有的防护手段包括内存刷新率调整(让电子来不及漏泄)、目标行刷新(TRR,主动给相邻行充电)、以及地址空间随机化。但GPU的工作负载特性让这些方案代价高昂——图形渲染和AI训练都极度依赖内存带宽,任何额外的刷新操作都会直接转化为性能损失。
GDDR6X显存的电压和频率比消费级DDR4更高,理论上电子漏泄效应更明显。但高频率也意味着刷新周期更短,给攻击者的窗口期更窄。这种物理层面的攻防拉锯,最终可能导向硬件设计的根本改变:片上ECC(错误校正码)的全面普及,或者内存控制器的物理隔离架构。
企业用户的处境更尴尬。RTX 6000是工作站和数据中心推理的主力,云服务商的GPU实例大量基于Ampere架构。攻击需要本地访问的前提,在多租户的云环境里并不成立——一个租户的CUDA程序,理论上可能通过共享的GPU硬件影响另一个租户。
Andrew Kwong在论文发布后的采访中提到,他们的测试环境是单用户物理机,云场景的攻击可行性"需要进一步验证"。但这种措辞在安全研究里通常意味着"我们已经有了思路,只是还没写进论文"。
行业连锁反应:从显卡到AI基础设施
三篇论文的公开,恰逢AI算力军备竞赛的白热化阶段。Nvidia的H100和Blackwell架构正在接替Ampere,但存量设备的退役周期以五年计。云服务商的GPU利用率报表上,Ampere系列仍占显著比例。
Rowhammer攻击的修复成本分布不均。消费级显卡用户几乎不会收到BIOS级别的内存控制器更新,驱动补丁的防护效果有限。企业级用户有vGPU和硬件分区的隔离选项,但这些方案的性能开销让AI训练场景望而却步。
一个被低估的变量是攻击工具的民主化。Zhang团队的GitHub仓库提供了完整的复现框架,包括内存按摩的启发式算法和页表腐蚀的触发序列。安全研究者可以用它验证防护方案,攻击者也可以用它开发武器化版本。这种双刃剑效应在Rowhammer历史上反复出现:2015年Google的Project Zero公开了DRAM漏洞的利用方法,直接催生了后续十年的防护研究,但也降低了攻击门槛。
GPU厂商的响应速度是下一个观察点。CPU领域的Rowhammer缓解用了近五年才形成行业共识,GPU的迭代周期更快,但硬件修复的部署更慢——数据中心显卡的固件更新需要停机窗口,消费级显卡的用户更新率常年低于20%。
如果云服务商开始要求GPU实例的Rowhammer风险评估,现有的合规框架里几乎找不到对应条款。PCI-DSS和SOC 2的审计清单还停留在应用层漏洞,物理层的内存侧信道攻击处于监管空白。这种脱节意味着,真正的大规模利用可能在"合规通过"的系统中悄然发生。
三篇论文的联合作者里,有两人来自工业界的安全团队,一人来自学术界。这种组合暗示了研究动机的双重性:既是学术发表,也是内部安全评估的外溢。Nvidia的漏洞赏金计划是否覆盖了这类硬件级问题,公开信息里没有明确答案。
一个值得追踪的细节是:GPUBreach团队提到的驱动漏洞,是否已经被Nvidia在最近的驱动更新中静默修复。版本日志里的"稳定性改进"和"安全增强"从不展开说明,这种信息不对称为攻击者提供了窗口期——防御方不知道漏洞是否还存在,攻击者可以假设它还存在。
当AI训练任务在云端GPU集群上运行时,用户数据的内存布局对攻击者而言是黑盒。但Rowhammer的物理本质意味着,足够高频的锤击可以穿透任何软件隔离。如果2025年出现针对公有云GPU实例的Rowhammer利用案例,现在的三篇论文会被重新翻阅——不是作为学术参考,而是作为攻击手册的脚注。
你的显卡驱动上一次更新是什么时候?如果答案超过三个月,你现在看到的这篇内容,可能正在和你没打补丁的GPU共享同一台机器的内存总线。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.