网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

0
分享至



本研究由史蒂文斯理工学院(Stevens Institute of Technology)的 IntelliSys Lab 团队以及休斯顿大学(University of Houston) 的 ANTS Lab 团队的相关研究人员共同完成,主要研究方向包括无服务器计算、高性能计算、AI 安全、联邦学习、LLM 代理系统、隐私保护及分布式智能系统等领域。

随着大语言模型(LLM)的商业价值快速提升,其昂贵的训练成本使得模型版权保护(IP Protection)成为业界关注的焦点。然而,现有模型版权验证手段(如模型指纹)往往忽略一个关键威胁:攻击者一旦直接窃取模型权重,即拥有对模型的完全控制权,能够逆向指纹 / 水印,或通过修改输出内容绕过指纹验证。

在此背景下,史蒂文斯理工学院(Stevens Institute of Technology)王灏老师团队的第二年级博士生熊子洵同学提出了 iSeal。该工作已被 AAAI 2026 主轨道以 poster 形式录用。

iSeal 是首个面向「端到端」模型窃取场景设计的加密指纹方案。它通过引入加密机制,使得指纹可抵御拥有模型完全控制权的攻击者所发起的「合谋遗忘攻击」(Collusion-based Unlearning)与「响应篡改攻击」(Response Manipulation),并在 12 个主流 LLM 上实现了 100% 的验证成功率。



  • 论文标题:iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
  • 论文链接
  • https://arxiv.org/pdf/2511.08905

研究问题与背景

大语言模型的训练往往耗费数百万美元的算力与数据资源,使得训练后的模型权重成为了极具价值的知识产权。为了确权,研究人员通常采用「模型指纹」(Model Fingerprinting)技术,即在模型中植入「触发器」(Trigger),当输入特定样本时输出特征化响应,以此证明模型所有权。

然而,现有指纹技术普遍基于一个不现实的假设:默认验证者面对的是黑盒 API,或攻击者无法干预推理过程。

在现实中,高级攻击者往往直接盗取模型权重并在本地部署,从而拥有「端到端控制」(End-to-End Control)。在这种情况下,攻击者可以发动更强的攻击,包括:

  • 合谋遗忘(Collusion-based Unlearning):攻击者收集部分指纹触发样本与其响应,通过微调或反向训练使模型遗忘特定指纹特征。



  • 响应篡改(Response Manipulation):攻击者实时监控模型输出,一旦检测到疑似指纹响应,立即使用同义词替换、句式重组或 paraphrasing 进行篡改,从而绕过验证。



实验表明,在这些高级攻击下,传统指纹方案(如后门式指纹)大多迅速失效,验证成功率接近 0%,无法提供有效保护。

方法与创新:

iSeal 的加密指纹框架



针对上述挑战,iSeal 提出了一套全新的加密指纹验证框架。其核心思想不是植入一个静态后门,而是将指纹验证过程转化为一个安全的加密交互协议。主要设计包括以下三个方面:

  • 加密指纹(Encrypted Fingerprinting)与外部编码器

iSeal 采用加密的指纹植入机制,并引入外部编码器(External Encoder)来解耦指纹与模型权重,使得指纹特征不再以显式形式存储在模型参数中,从而防止攻击者通过分析权重逆向指纹。

  • 抗遗忘设计:Confusion & Diffusion 绑定机制

iSeal 通过 Confusion & Diffusion 机制,将指纹特征通过条件概率深度绑定到模型的核心推理能力之中。指纹不再是可单独剥离的附加结构,且多个指纹之间不互相纠缠,因此攻击者即使尝试遗忘部分指纹,也无法破坏整体指纹系统。

  • 抵御响应篡改:基于相似度的动态验证

针对推理阶段的输出篡改,iSeal 采用基于相似度的验证策略(Similarity-based Verification)和纠错机制(Reed-Solomon Code)。即使攻击者使用 paraphrasing 或同义词替换,验证算法也能从语义与概率分布中恢复指纹信号。

实验结果

研究团队在包括 LLaMA、OPT 等在内的 12 个主流大语言模型上评估了 iSeal。结果显示,在提供强指纹保护的同时,iSeal 不影响模型的原始任务性能。

  • 防御微调与合谋攻击

研究者模拟了攻击者利用盗取的模型权重执行 SFT 微调与合谋遗忘攻击。即使攻击者利用已知指纹样本反向训练以擦除指纹:

  • iSeal 的验证成功率(FSR)始终保持在 100%;

  • 传统指纹方法在经过少量微调后即完全失效(FSR ≈ 0%)。 这是因为 iSeal 的指纹互不纠缠,使得攻击者无法通过遗忘部分指纹来破坏整个验证结构。



  • 防御响应篡改攻击

针对同义词替换、句式改写和 LLM 派生润色等篡改方式,iSeal 的相似度验证与纠错机制依然能够从潜在语义中识别指纹信号,因此验证成功率仍然维持在 100%。相比之下,基于精确匹配(Exact Match)的传统方法在此类攻击下完全失效。



  • 消融实验

研究者对 iSeal 的关键组件进行了消融实验,以验证其必要性。



  • 冻结编码器(Freezing the Encoder):若训练时不冻结编码器(iSeal w/o freezing),模型无法稳定收敛,FSR 直接降低为 0%。

  • 可学习编码器(Learned Encoder):将可学习编码器替换为传统加密算法(如 AES,即 iSeal w/o encoder)后,FSR 降至 0%–2%。说明传统加密机制无法有效实现 iSeal 所需的指纹嵌入与语义恢复能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

真的要夸夸香飘飘,居然能请到莎莎穿长裙拍商务照,

小光侃娱乐
2026-03-25 12:40:06
原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

揽星河的笔记
2026-03-25 19:31:09
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

揽星河的笔记
2025-12-08 13:30:38
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

零度Military
2026-03-26 22:20:35
重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

重磅:欧盟冻结匈牙利160亿欧元援助!反制欧尔班的关键一招

项鹏飞
2026-03-26 20:50:33
泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

泰国U23主帅:中国队是支很强劲的队伍,这场比赛对我们有益

懂球帝
2026-03-26 10:30:13
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

美军最不愿看到的事发生:又一架战机被击中,仓皇往航母方向跑

阿龙聊军事
2026-03-26 20:32:20
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

黄晓明回应考博失利今年再战:希望自己有一天能成功,因为我们家没有博士,想做家里第一个博士

台州交通广播
2026-03-26 19:49:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
估值420亿!刘强东押注宇树科技!

估值420亿!刘强东押注宇树科技!

新零售参考Pro
2026-03-25 14:22:05
我说送他鼠标,结果他开口就要799的鼠标,太下头了…

我说送他鼠标,结果他开口就要799的鼠标,太下头了…

夜深爱杂谈
2026-03-21 19:15:14
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
2026-03-26 22:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
手机
数码
教育
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

教育要闻

骂人没有杀伤力?那不是白忙活吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版