网易首页 > 网易号 > 正文 申请入驻

再不能用ChatGPT写作业了!新算法给AI文本加水印,置信度99.99%

0
分享至

明敏 Alex 发自 凹非寺
量子位 | 公众号 QbitAI

AI生成文本,又遇新对手!

凭借识别AI生成文本中的“水印”,一种新算法能够准确判断文本到底是谁写的。

无需访问模型参数、API,结果置信度高达99.999999999994%

方法一经发布就引来大量网友围观。这回拿ChatGPT“作弊”,怕不是要更难了?

要知道,最近一段时间,ChatGPT先是成为美国高中生的写作业利器,后面帮专业媒体写稿子,引发巨大恐慌。如Nature、纽约教育部等,都针对ChatGPT发布禁令。

马里兰大学学者们提出的这一新方法,为解决这些麻烦提出了一个新思路。

不少网友都觉得,这个方法提出的正是时候,而且效果看着也不错。

有学者还和美国高中生喊话,你们要做好准备了!

作者表示,方法代码将在2月15日免费开源。

计算文本由AI生成的概率

所谓模型水印,人类无法看到,但是计算机可以。

这是一种现在被常用于大规模语言模型(LLM)中的方法,能让AI生成的文本带有“特殊标记”。即把信号嵌入到生成的文本中,让算法能从一小段token中检测出来。

最近,OpenAI方面也表示,考虑在ChatGPT中添加水印,以降低模型被滥用带来的负面影响。

这篇最新论文的作者,就想验证下这个想法到底靠不靠谱。他们通过给LLM中嵌入水印,然后再进行检测。其中水印的嵌入不会影响文本生成质量。

具体来说,大规模语言模型每次生成一个token,每个token将从包含大约5万个词汇的词汇表中进行选择。

在新token生成之前,该方法会基于最近已生成的token为随机数生成器(RNG)提供“种子”,以此来压一个水印。

然后使用RNG,能将词汇表分为黑名单白名单,并要求LLM接下来只能从白名单中选择词汇。

如果整段文本中,白名单中的词汇越多,就意味着越有可能是AI生成的

黑白名单的区分,基于一个原则:

人类使用词汇的随机性更强。

举例来说,如果在“美丽的”后面生成词汇,水印算法会将“花”列入白名单,将“兰花”列入黑名单。

论文作者认为,AI更可能使用“花”这个词汇,而不是“兰花”。

然后,就能通过计算整段文本中白名单token出现的情况,来检测水印。

如果一共有生成了N个token,所有的token都使用了白名单词汇,那么这段文字只有2的N次方分之一概率是人类写的。

即便这段文字只由25个词组成,那么水印算法也能判断出它到底是不是AI生成的。

但作者也表示,水印有时候也不一定完全靠谱。

比如模型输出了“SpongeBob Square”,下一个单词一定会是“Pants”吧?但是Pants会被标记到黑名单里,即认为是只有人才会写的词。

(注:SpongeBob SquarePants是《海绵宝宝》动画片的英文,可理解为一个专有名词)

这种情况会严重影响算法的准确性,因此作者将其定义为低熵token,因为模型几乎不会有更好的选择。

对应来看,也会有高熵token,比如“海绵宝宝感觉____”这个句式里,能填入的词汇太多了。

对于这一情况,作者选择针对高熵token制定更强的规则,同时保留低熵token,确保水印质量更好。

与此同时,他们还添加了波束搜索(Beam search),允许LLM能够排布一整个token序列,以避免黑名单词汇。

这么做,他们能确保LLM使用白名单词汇的概率在大约80%左右,而且不影响文本生成质量。

举例来看,对于下面这段文字,水印算法认为它有99.999999999994%的可能是由AI生成的。

因为在这段文字中,包含36个token。如果是人类写的,那么文本中应该包含9±2.6个白名单词汇(白名单词汇的概率约为25%)。

但这段文字中,包含了28个白名单词汇。

计算来看,这段文字由人类写出的概率,仅有0.0000000000006%(6乘以10的-15次方)。

如下标注的是文本中的黑名单token。

需要注意的是,如果想要水印正常发挥作用,并不受到攻击,就必须对文本进行一些标准化处理,并且需要检测某些类型的对抗性提示。

这一方法是对外公开的,将在2月15日开源代码。

加一个随机密钥,也能变成保密模式并且托管到API上,这能保证水印不会被篡改。

论文中使用的模型是Meta开源的OPT-1.3B模型。

由于不用访问底层模型,所以该检测方法的速度很快,成本也不会很高。

而且可以使用标准语言模型生成带水印的文本,不用再重新训练。

网友:似乎很容易绕过?

巴特,不少网友觉得,这个方法的具体实践效果可能远不及理想,质疑之声迭起。

有人提出:

如果我在AI生成的文字基础上,修改几个词,还能被查出来吗?那在替换成近义词后,检测准确率会下降多少?
毕竟大家往往不会一字不改、直接用AI生成的内容。

对此,论文通讯作者、马里兰大学副教授Tom Goldstein回答称:

对于一段自带水印的文字,至少得修改40%-75%的token,才可能成功去除水印。
(如果用其他程序修改内容的话),会发生同义词攻击,导致生成内容的质量很低。

简而言之,想要通过换近义词来消除水印,得大篇幅修改,而且若不是人亲自手动修改的话,效果会很拉胯。

还有人提出:

对于专门设计过的低熵token序列,应该能检测出水印。但是,长度和检测率之间(存在一些矛盾),它们的优先级应该如何权衡?

对此,Tom教授表示:

根据设定,使用波束搜索时,绝大多数(通常是90%)的token在白名单上,即使是低熵token,也会被列入白名单。
所以,至少得修改一半以上的token,才能删除水印,而这需要一个超级强大的LLM模型才行,一般人很难接触到。

不过,研究者们也在论文中承认,这种方法确实存在一些局限性。

比如,检测水印的z统计量,只取决于白名单大小参数γ和生成白名单的哈希函数,和其他不少重要的参数并没有什么相关性。

这就让他人可以在下游水印检测器上做手脚,可以改变水印采样算法,重新部署水印,最终让原本生成的水印失效。

就连OpenAI CEO Sam Altman也表示:

创造完美检测AI抄袭的工具,从根本上来说是不可能的。

(尽管他说OpenAI打算启用水印大法)

但话说回来,人们为了限制AI生成文字的负面影响,还是煞费苦心——

之前就有人搞出了一个检测ChatGPT的网站,名曰GPTZero,只需要把相应的内容粘进去,几秒内就能分析出结果。

论文地址:
https://arxiv.org/abs/2301.10226

参考链接:
[1]https://twitter.com/tomgoldsteincs/status/1618287665006403585
[2]https://twitter.com/goodside/status/1610552172038737920
[3]https://www.technologyreview.com/2023/01/27/1067338/a-watermark-for-chatbots-can-spot-text-written-by-an-ai/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝华晨宇和张碧晨不来往,每月打5位数抚养费,不管孩子被嘲冷血

曝华晨宇和张碧晨不来往,每月打5位数抚养费,不管孩子被嘲冷血

梗中娱乐
2023-03-05 14:27:46
1877年,刘易斯·赛尔正在展示他发明的一种牵引疗法

1877年,刘易斯·赛尔正在展示他发明的一种牵引疗法

图史斋
2023-03-15 17:13:46
太可怕!游客在九寨沟一饭店饮酒后,致1死1失明 官方回应

太可怕!游客在九寨沟一饭店饮酒后,致1死1失明 官方回应

北青网-北京青年报
2023-03-18 11:28:11
王薇薇:73岁身材干瘪,却要硬凹少女风,梳麻花辫踩20公分高跟鞋

王薇薇:73岁身材干瘪,却要硬凹少女风,梳麻花辫踩20公分高跟鞋

照见古今
2023-03-20 18:56:56
女生找“嘴友”男生“找鸡”,大学表白墙成许愿池,属实笑不活了

女生找“嘴友”男生“找鸡”,大学表白墙成许愿池,属实笑不活了

静晶教育
2023-03-20 20:53:00
王菲:拒绝和陈奕迅说话,不是自己耍大牌高冷,而是陈奕迅太能说

王菲:拒绝和陈奕迅说话,不是自己耍大牌高冷,而是陈奕迅太能说

大坤娱乐在线
2023-03-21 10:48:05
上海65岁老人心梗病危,儿子全身仅剩100块钱,出门筹钱竟成永别

上海65岁老人心梗病危,儿子全身仅剩100块钱,出门筹钱竟成永别

国学璀璨
2023-03-21 17:59:57
女子上楼扶墙双腿开叉,眼神闪躲不安,向男友吐槽2天活动太累

女子上楼扶墙双腿开叉,眼神闪躲不安,向男友吐槽2天活动太累

培大看众生
2023-03-20 22:06:22
男性时长排行,你处于哪个段位?

男性时长排行,你处于哪个段位?

博尔健康
2023-03-15 17:33:50
美媒称已经选好开战地点 中伊俄军事演习彻底惹恼美国

美媒称已经选好开战地点 中伊俄军事演习彻底惹恼美国

阿哥说军事
2023-03-21 18:48:14
缅甸各方呼叫中国,不到24小时外交部回应,东盟摆不平,要靠中国

缅甸各方呼叫中国,不到24小时外交部回应,东盟摆不平,要靠中国

海峡军武
2023-03-20 18:55:05
美俄两国突然打响第一枪,美请求中国解除制裁,中方早已亮明态度

美俄两国突然打响第一枪,美请求中国解除制裁,中方早已亮明态度

军武视角
2023-03-20 10:58:04
老詹:只要湖人将哈姆教练下课,湖人必夺冠!两个明显的弱点

老詹:只要湖人将哈姆教练下课,湖人必夺冠!两个明显的弱点

皮皮文章J
2023-03-21 09:35:50
终于!华为春季新品发布会官宣:P60、MateX3要来了

终于!华为春季新品发布会官宣:P60、MateX3要来了

齐鲁壹点
2023-03-21 09:48:53
我,北京市部委公务员,告诉你一个月收入有多少

我,北京市部委公务员,告诉你一个月收入有多少

陌上花开缓缓行
2023-03-21 12:50:58
一位灵活就业人员每月缴纳12136元社保,全年缴纳高达14.56万元!

一位灵活就业人员每月缴纳12136元社保,全年缴纳高达14.56万元!

益智小趣谈
2023-03-20 23:40:31
阿雅:社交平台女儿出镜,清一色好评如潮,吐槽小S女儿不如人家

阿雅:社交平台女儿出镜,清一色好评如潮,吐槽小S女儿不如人家

仙人掌说娱乐
2023-03-19 21:22:02
4换1!勇士正式报价西亚卡姆,筹码诚意满满无法拒绝

4换1!勇士正式报价西亚卡姆,筹码诚意满满无法拒绝

篮球头条
2023-03-21 14:04:22
中方访俄之际,40国司法部长齐聚伦敦,德国扬言:普京入境就抓他

中方访俄之际,40国司法部长齐聚伦敦,德国扬言:普京入境就抓他

山水谈要闻
2023-03-21 04:09:19
《黑暗荣耀》李莎拉扮演者靠眼睛拿下剧本,确实有疯批美人那味儿

《黑暗荣耀》李莎拉扮演者靠眼睛拿下剧本,确实有疯批美人那味儿

娱乐寡姐
2023-03-21 14:51:50
2023-03-21 19:22:44
量子位
量子位
追踪人工智能动态
7646文章数 171309关注度
往期回顾 全部

科技要闻

GPT-4强到离谱,OpenAI拒绝开源,高管:之前错了

头条要闻

男子花80多万买的路虎是"泡水车" 法院:商家退一赔三

头条要闻

男子花80多万买的路虎是"泡水车" 法院:商家退一赔三

体育要闻

国青出线背后:球员回地方队打不上球?

娱乐要闻

刘恺威再当爹?李晓峰被曝怀孕2个月

财经要闻

汽车要闻

升级8155/NOA驾驶辅助 新款领克05家族今日上市

态度原创

教育
游戏
亲子
公开课
军事航空

教育要闻

震惊!应届硕博毕业生首超本科生!00后们何去何从?

外媒评“最恐怖游戏TOP10”

亲子要闻

“天价月嫂”事件曝光:1周25次,永远不要低估了人性的恶

公开课

40岁广东男子,每晚夜跑6公里,一年后:

军事要闻

美军C130搭载海马斯火箭炮在韩国实战演习

无障碍浏览 进入关怀版