网易首页 > 网易号 > 正文 申请入驻

不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文通讯作者为马里兰大学计算机系的博士生胡正冕,其导师为 Heng Huang。他的主要研究方向是采样与机器学习理论,曾在ICML、NeurIPS、ICLR等顶级会议上发表多篇论文。邮箱: huzhengmian@gmail.com

随着大语言模型(LLM)的快速发展,其在文本生成、翻译、总结等任务中的应用日益广泛。如微软前段时间发布的Copilot+PC允许使用者利用生成式AI进行团队内部实时协同合作,通过内嵌大模型应用,文本内容可能会在多个专业团队内部快速流转,对此,为保证内容的高度专业性和传达效率,同时平衡内容追溯、保证文本质量的LLM水印方法显得极为重要。

如何从使用面的事后追溯管控生成式AI的应用,因此成为了一些研究者关注的议题。

为了应对这一挑战,研究者们提出了在LLM生成过程中嵌入水印的方法,以实现对模型输出内容的追踪和溯源。

近日,马里兰大学、匹兹堡大学和滑铁卢大学的研究者在ICLR 2024上发表了一项名为「Unbiased Watermark for Large Language Models」的研究,提出了一种新的LLM水印方法——无偏水印(Unbiased Watermark)

该方法不仅能在LLM生成过程中嵌入水印,实现内容溯源,还能保证嵌入水印后的文本质量不受影响。相关论文已被ICLR 2024会议接收为Spotlight论文。

  • 论文地址: https://openreview.net/pdf?id=uWVC5FVidc
  • 代码仓库: https://github.com/xiaoniu-578fa6bff964d005/UnbiasedWatermark

无偏水印方法

传统的LLM水印方法存在一个两难困境:「如果水印信号过强,虽然易于检测,但会影响生成文本的质量;如果水印信号过弱,虽然对文本质量影响小,但难以检测。」

这一矛盾导致传统水印方法难以在内容溯源和质量保证之间取得平衡。

为了解决这一问题,该研究提出了无偏水印方法

其核心思想是:利用多个水印分布,而不是单一的水印分布。这些水印分布的组合能够恢复原始的语言模型输出分布。在生成过程中,根据一个私钥在所有可能的水印分布之间进行选择。

对于没有私钥的观察者来说,含水印模型的期望输出与原始模型完全一致,从而保证了无偏性。但对于拥有私钥的人来说,相应水印分布与原始分布之间的差异可以很大,从而实现可靠的水印检测。

无偏水印方法主要包括两个关键组件:无偏重赋权(Unbiased Reweight)独立水印码(Independent Watermark Codes)

无偏重赋权的目的是确保含水印分布的期望值与原始分布相匹配。

研究者提出了两种具体的无偏重赋权方法:δ-reweightγ-reweight

  • δ-reweight方法利用逆变换采样(Inverse Transform Sampling)的思想,根据原始分布和一个均匀分布的随机数来生成水印分布。
  • γ-reweight方法则先对词表进行随机重排,然后对重排后的词表进行分段线性变换,得到水印分布。

理论分析表明,这两种方法都满足无偏性要求

δ-reweight和γ-reweight方法示例

为了保证整个序列的无偏性,水印码在每一步生成过程中都必须是独立的。由于水印码依赖于上下文码(Context Codes),研究者引入了上下文码历史(Context Code History)的概念。

在生成过程中,如果某个上下文码出现过,就跳过水印嵌入,直接使用原始的语言模型输出分布。这样可以避免重复的上下文码导致的水印码相关性,从而保证水印码的独立性。

水印的检测

在水印检测方面,该研究提出了两种检测方法:基于似然(likelihood-based)的检测和无需似然(likelihood-agnostic)的检测。

基于似然的检测方法利用语言模型的输出概率进行水印检测。研究者首先介绍了对数似然比检验(LLR Test)的方法。LLR Test比较给定文本在原始分布和水印分布下的似然,如果似然比超过一个阈值,则判定该文本含有水印。

LLR Test在理论上是最优的检验方法,能够在I类错误(假阳性)和II类错误(假阴性)之间取得最佳平衡。

然而,标准的LLR Test对原始分布和水印分布的扰动比较敏感。如果文本在水印检测前被修改,真实的水印分布可能与假设的水印分布不同,导致检测性能下降。为了解决这个问题,研究者提出了一种稳健的LLR Test变体。

该变体引入了一个新的优化问题,允许水印分布有小幅度的扰动。实验表明,稳健的LLR Test在面对文本修改时,仍然能保持较好的检测性能

基于似然的检测方法需要访问语言模型的输出概率,在某些情况下可能不易求解。

为此,研究者还提出了一种无需似然的检测方法。该方法不依赖于语言模型的输出概率,而是利用Gumbel Trick生成水印码,并设计了一种新的打分函数。

理论分析表明,无需似然的检测方法同样能够保证I类错误的上界。然而,与基于似然的检测方法相比,无需似然的检测方法的检测效率较低,在相同的I类错误率下,通常需要更长的文本序列才能可靠地检测到水印。

实验结果

研究者在文本摘要和机器翻译两个任务上,评测了无偏水印方法的性能。

实验结果表明,嵌入水印后的文本质量与原始模型输出相当,在ROUGE、BLEU等指标上没有显著差异。相比之下,传统的水印方法(如Soft Red List)会导致明显的质量下降。

此外,研究者还测试了无偏水印方法对多种可能的文本变化的鲁棒性,包括温度改变,Top-k采样,输入扰动,模型扰动,随机替换攻击。

实验表明无偏水印方法具有较强的鲁棒性,能够应对一定程度的文本修改攻击。

总结

无偏水印方法为LLM水印技术提供了一种新的思路。通过新颖的采样策略,该方法在保证生成文本质量的同时,实现了可靠的水印嵌入和检测。这为解决LLM生成内容的滥用问题提供了一种有效的解决方案。

无偏水印技术在维持文本质量的同时,也可能引发一些伦理问题。由于用户无法在不知道创建者私钥的情况下检测水印,这可能导致未经披露的跟踪行为。

在实际应用中,人们应当谨慎、合乎伦理地应用无偏水印方法,并向用户明确说明其存在,工作原理和意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两名女孩扶人被索赔22万,媒体公众皆反对,但老太太占尽法律优势

两名女孩扶人被索赔22万,媒体公众皆反对,但老太太占尽法律优势

读鬼笔记
2026-02-21 09:37:52
整个西方都炸了,中国男人,全球最高级的一群人

整个西方都炸了,中国男人,全球最高级的一群人

毛豆论道
2026-02-20 20:49:13
湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

湛江妈祖事件持续发酵!许老板坐不住了,得罪两广、福建的生意人

火山詩话
2026-02-21 05:13:01
突发!特朗普:对全球输美商品加征10%的关税!银价暴涨,金价大涨

突发!特朗普:对全球输美商品加征10%的关税!银价暴涨,金价大涨

金融界
2026-02-21 08:13:12
谷爱凌惹上麻烦了

谷爱凌惹上麻烦了

行者殷涛
2026-02-20 20:16:47
发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

谈史论天地
2026-02-21 08:33:48
女子除夕夜通过监控看到父亲对着空桌独自吃饺子,第二天与弟弟驱车800公里回家,“回家后爸爸哭了”

女子除夕夜通过监控看到父亲对着空桌独自吃饺子,第二天与弟弟驱车800公里回家,“回家后爸爸哭了”

极目新闻
2026-02-20 22:30:02
贝加尔湖底的七名中国游客,本来是可以不用死的

贝加尔湖底的七名中国游客,本来是可以不用死的

未来展望
2026-02-21 00:23:41
贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

贝加尔湖事故遇难者遗体已被发现,涉事司机为44岁当地男子,系私下接单;获救者是来自江苏省的一位男性

都市快报橙柿互动
2026-02-21 00:08:59
80+15+24!湖人三巨头爆发,伦纳德31分&伤退,新援轰26分难救主

80+15+24!湖人三巨头爆发,伦纳德31分&伤退,新援轰26分难救主

球盲姐
2026-02-21 14:43:15
伊朗已经下定决心,抢在美国动手之前,把俄罗斯牢牢绑在战车上

伊朗已经下定决心,抢在美国动手之前,把俄罗斯牢牢绑在战车上

东极妙严
2026-02-20 15:17:46
42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

青眼财经
2026-02-20 23:31:25
那艺娜被认定劣迹艺人!靠说蹩脚中文,假扮俄罗斯美女走红

那艺娜被认定劣迹艺人!靠说蹩脚中文,假扮俄罗斯美女走红

韩小娱
2026-02-21 10:30:22
张纪中一家越南度假,74岁的他推婴儿车很吃力,杜星霖穿粉衣娇美

张纪中一家越南度假,74岁的他推婴儿车很吃力,杜星霖穿粉衣娇美

疯说时尚
2026-02-21 05:25:57
河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

河北女婿到江西过年,大年初三吃泡面!满眼看去桌上全是辣菜,妻子:他说江西菜吃腻了

极目新闻
2026-02-20 17:01:59
“赶紧还钱!”关税政策被判违法后,加州州长呼吁美政府立即“连本带利”退还税款

“赶紧还钱!”关税政策被判违法后,加州州长呼吁美政府立即“连本带利”退还税款

环球网资讯
2026-02-21 09:38:25
狂炫5斤车厘子和红烧肉,12岁男孩进了重症监护室

狂炫5斤车厘子和红烧肉,12岁男孩进了重症监护室

现代快报
2026-02-21 13:58:06
太尴尬!广东网友哭诉大年初一在家族群发200元红包,退回79.17元

太尴尬!广东网友哭诉大年初一在家族群发200元红包,退回79.17元

火山詩话
2026-02-20 15:31:34
昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

上游新闻
2026-02-21 13:43:15
“预见到伊朗的反应可能构成重大风险”,数百名美军士兵从乌代德空军基地撤离,五角大楼认为战争或持续超过12天

“预见到伊朗的反应可能构成重大风险”,数百名美军士兵从乌代德空军基地撤离,五角大楼认为战争或持续超过12天

极目新闻
2026-02-21 11:21:49
2026-02-21 15:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12325文章数 142569关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

头条要闻

牛弹琴:一觉醒来世界大变 真急了的特朗普改新打法

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

房产
健康
艺术
家居
教育

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

艺术要闻

史洪生油画作品

家居要闻

本真栖居 爱暖伴流年

教育要闻

“这种女儿,谁敢娶?”家长生了3位千金却没人做饭,看清了现实

无障碍浏览 进入关怀版