网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

0
分享至



本研究由史蒂文斯理工学院(Stevens Institute of Technology)的 IntelliSys Lab 团队以及休斯顿大学(University of Houston) 的 ANTS Lab 团队的相关研究人员共同完成,主要研究方向包括无服务器计算、高性能计算、AI 安全、联邦学习、LLM 代理系统、隐私保护及分布式智能系统等领域。

随着大语言模型(LLM)的商业价值快速提升,其昂贵的训练成本使得模型版权保护(IP Protection)成为业界关注的焦点。然而,现有模型版权验证手段(如模型指纹)往往忽略一个关键威胁:攻击者一旦直接窃取模型权重,即拥有对模型的完全控制权,能够逆向指纹 / 水印,或通过修改输出内容绕过指纹验证。

在此背景下,史蒂文斯理工学院(Stevens Institute of Technology)王灏老师团队的第二年级博士生熊子洵同学提出了 iSeal。该工作已被 AAAI 2026 主轨道以 poster 形式录用。

iSeal 是首个面向「端到端」模型窃取场景设计的加密指纹方案。它通过引入加密机制,使得指纹可抵御拥有模型完全控制权的攻击者所发起的「合谋遗忘攻击」(Collusion-based Unlearning)与「响应篡改攻击」(Response Manipulation),并在 12 个主流 LLM 上实现了 100% 的验证成功率。



  • 论文标题:iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
  • 论文链接
  • https://arxiv.org/pdf/2511.08905

研究问题与背景

大语言模型的训练往往耗费数百万美元的算力与数据资源,使得训练后的模型权重成为了极具价值的知识产权。为了确权,研究人员通常采用「模型指纹」(Model Fingerprinting)技术,即在模型中植入「触发器」(Trigger),当输入特定样本时输出特征化响应,以此证明模型所有权。

然而,现有指纹技术普遍基于一个不现实的假设:默认验证者面对的是黑盒 API,或攻击者无法干预推理过程。

在现实中,高级攻击者往往直接盗取模型权重并在本地部署,从而拥有「端到端控制」(End-to-End Control)。在这种情况下,攻击者可以发动更强的攻击,包括:

  • 合谋遗忘(Collusion-based Unlearning):攻击者收集部分指纹触发样本与其响应,通过微调或反向训练使模型遗忘特定指纹特征。



  • 响应篡改(Response Manipulation):攻击者实时监控模型输出,一旦检测到疑似指纹响应,立即使用同义词替换、句式重组或 paraphrasing 进行篡改,从而绕过验证。



实验表明,在这些高级攻击下,传统指纹方案(如后门式指纹)大多迅速失效,验证成功率接近 0%,无法提供有效保护。

方法与创新:

iSeal 的加密指纹框架



针对上述挑战,iSeal 提出了一套全新的加密指纹验证框架。其核心思想不是植入一个静态后门,而是将指纹验证过程转化为一个安全的加密交互协议。主要设计包括以下三个方面:

  • 加密指纹(Encrypted Fingerprinting)与外部编码器

iSeal 采用加密的指纹植入机制,并引入外部编码器(External Encoder)来解耦指纹与模型权重,使得指纹特征不再以显式形式存储在模型参数中,从而防止攻击者通过分析权重逆向指纹。

  • 抗遗忘设计:Confusion & Diffusion 绑定机制

iSeal 通过 Confusion & Diffusion 机制,将指纹特征通过条件概率深度绑定到模型的核心推理能力之中。指纹不再是可单独剥离的附加结构,且多个指纹之间不互相纠缠,因此攻击者即使尝试遗忘部分指纹,也无法破坏整体指纹系统。

  • 抵御响应篡改:基于相似度的动态验证

针对推理阶段的输出篡改,iSeal 采用基于相似度的验证策略(Similarity-based Verification)和纠错机制(Reed-Solomon Code)。即使攻击者使用 paraphrasing 或同义词替换,验证算法也能从语义与概率分布中恢复指纹信号。

实验结果

研究团队在包括 LLaMA、OPT 等在内的 12 个主流大语言模型上评估了 iSeal。结果显示,在提供强指纹保护的同时,iSeal 不影响模型的原始任务性能。

  • 防御微调与合谋攻击

研究者模拟了攻击者利用盗取的模型权重执行 SFT 微调与合谋遗忘攻击。即使攻击者利用已知指纹样本反向训练以擦除指纹:

  • iSeal 的验证成功率(FSR)始终保持在 100%;

  • 传统指纹方法在经过少量微调后即完全失效(FSR ≈ 0%)。 这是因为 iSeal 的指纹互不纠缠,使得攻击者无法通过遗忘部分指纹来破坏整个验证结构。



  • 防御响应篡改攻击

针对同义词替换、句式改写和 LLM 派生润色等篡改方式,iSeal 的相似度验证与纠错机制依然能够从潜在语义中识别指纹信号,因此验证成功率仍然维持在 100%。相比之下,基于精确匹配(Exact Match)的传统方法在此类攻击下完全失效。



  • 消融实验

研究者对 iSeal 的关键组件进行了消融实验,以验证其必要性。



  • 冻结编码器(Freezing the Encoder):若训练时不冻结编码器(iSeal w/o freezing),模型无法稳定收敛,FSR 直接降低为 0%。

  • 可学习编码器(Learned Encoder):将可学习编码器替换为传统加密算法(如 AES,即 iSeal w/o encoder)后,FSR 降至 0%–2%。说明传统加密机制无法有效实现 iSeal 所需的指纹嵌入与语义恢复能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李宗仁去世后,胡友松被送去改造,周总理:放不下一个胡友松吗

李宗仁去世后,胡友松被送去改造,周总理:放不下一个胡友松吗

芊芊子吟
2026-02-03 09:40:07
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

小舟谈历史
2025-10-15 09:35:31
原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

原来早已不是中国籍,被老外“玩腻”后回国,郑绪岚现状令人唏嘘

暖心萌阿菇凉
2026-03-02 23:02:48
伊朗确定最高领袖候选人,哈梅内伊高级助理:伊朗无意与美国谈判,战争“想打多久就打多久”

伊朗确定最高领袖候选人,哈梅内伊高级助理:伊朗无意与美国谈判,战争“想打多久就打多久”

每日经济新闻
2026-03-04 18:39:04
比熬夜可怕十倍的10个坏习惯,一定要抛弃!

比熬夜可怕十倍的10个坏习惯,一定要抛弃!

深度知局
2026-02-26 21:39:44
肝癌后才懂放手!孙志浩全部遗产归梧桐妹,这结局谁也没料到

肝癌后才懂放手!孙志浩全部遗产归梧桐妹,这结局谁也没料到

小椰的奶奶
2026-03-01 10:32:16
“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

每日经济新闻
2026-02-28 14:37:58
霍尔木兹海峡切断,不到24小时,中国油市行情生变,邻国股市狂跌

霍尔木兹海峡切断,不到24小时,中国油市行情生变,邻国股市狂跌

南宗历史
2026-03-04 11:55:16
明查|美国航母遭伊朗袭击后起火?这两段是AI和过期视频

明查|美国航母遭伊朗袭击后起火?这两段是AI和过期视频

澎湃新闻
2026-03-03 14:11:03
遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

阿纂看事
2026-03-04 18:21:39
扩散周知!我使馆提醒防范日本撞人族

扩散周知!我使馆提醒防范日本撞人族

每日经济新闻
2026-03-04 11:18:42
全球市场开启无差别抛售

全球市场开启无差别抛售

第一财经资讯
2026-03-04 16:13:40
平顶山刘某飞夫妻共打伤4人,一人轻伤二级,共需要赔偿多少?

平顶山刘某飞夫妻共打伤4人,一人轻伤二级,共需要赔偿多少?

天天热点见闻
2026-03-04 06:52:47
美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

中国能源网
2026-03-04 10:32:07
血洗!道指狂泻千点,避险神话破灭?全球资金正疯狂涌向同一个地方

血洗!道指狂泻千点,避险神话破灭?全球资金正疯狂涌向同一个地方

圆维度
2026-03-04 13:53:07
一航班“驾驶舱失压”紧急返航,乘客:10分钟降7000米

一航班“驾驶舱失压”紧急返航,乘客:10分钟降7000米

大象新闻
2026-03-04 16:19:06
罗永浩自曝44岁在儿科确诊ADHD,“害怕尴尬就坐在孩子旁边,让别人误以为自己是就诊孩子的爸爸”

罗永浩自曝44岁在儿科确诊ADHD,“害怕尴尬就坐在孩子旁边,让别人误以为自己是就诊孩子的爸爸”

观威海
2026-03-04 17:11:03
A股,又罕见提示风险了

A股,又罕见提示风险了

萌生财经
2026-03-04 08:46:01
如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

橘子约定
2026-03-04 09:59:33
日本东证指数跌幅扩大至4%

日本东证指数跌幅扩大至4%

每日经济新闻
2026-03-04 10:34:04
2026-03-04 20:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12410文章数 142578关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

亲子
家居
教育
时尚
本地

亲子要闻

宝妈做辅食越来越进步,宝宝给鼓励直拍手,儿媳说婆婆不经夸?

家居要闻

极简无界 静居自安然

教育要闻

重磅!2026年绵阳中考时间确定

三件外套拍出17万美元天价!为什么时装精都想买她的同款?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

无障碍浏览 进入关怀版