网易首页 > 网易号 > 正文 申请入驻

ICLR 2025 | 无需本地模型,一次OpenAI API调用准确检测AI生成文本

0
分享至

大语言模型越来越强,AI生成文本越来越难以检测?也许不用担心,越来越强的大语言模型本身也是越来越强的AI生成文本检测器!

大语言模型广泛使用,引发人们对虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法——Glimpse,打破文本检测的白盒方法和较强大的黑盒私有模型之间的屏障,获得检测准确率的大幅提升(检测错误率降低 50%以上)。无需本地模型,无需生成任何新内容,一次OpenAI API调用就可以获得任意来源文本的准确检测结果。

论文题目: Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection 论文链接: https://openreview.net/forum?id=an3fugFA23 代码链接: https://github.com/baoguangsheng/glimpse

一、研究动机

大型语言模型(LLMs)能够生成接近人类的流畅且连贯的文本内容,在各个行业(如新闻、社交媒体和教育)中提升生产力的同时,也引发了人们对虚假信息、误导内容和剽窃等风险的担忧。为了构建可信赖的人工智能系统,我们迫切需要高质量、自动化的检测工具。然而,随着大型语言模型能力的增强,其生成的文本内容越来越接近人类的水平,导致越来越难以准确检测。

现有的检测器按其使用检测模型的方式可以分为两类:白盒方法和黑盒方法。白盒方法依赖检测模型的内部状态或者输出分布,所以一般需要本地运行开源模型。黑盒方法通过API访问检测模型,所以能使用相对更强大的私有大模型。虽然黑盒方法能使用更强的大模型,但由于方法本身的限制,其检测准确率和检测效率普遍低于白盒方法。那是否能够将更准确的白盒方法和更强大的黑盒私有模型相结合呢?受API访问方式的限制,这看起来似乎不可能。

为了突破这种限制,我们重新审视了白盒方法所使用检测模型的预测分布,提出了一种新的方法 —— Glimpse,从私有模型API返回的部分信息,来估算模型的预测分布,进而计算相应的检测指标。从而打破了白盒方法和私有模型之间的屏障,做到了强强联手。

使用更强大的私有模型,如GPT-3.5,Glimpse成功地将英文语料(涉及五个源模型和三个领域)上的检测准确率(AUROC)从0.90提升到0.95,在其它六个全球主要语言上将准确率从0.88提升到0.97,检测错误率降低 50%以上。同时,实验结果也展示了更强的语言模型也是更强的检测器

二、方法

图1:Glimpse概率分布估计方法

我们提出了一种概率分布估计方法——Glimpse,旨在从模型API返回的部分观测值中估计完整的分布。该观测值包括输入token的概率值(logprobs)以及每个token位置上top-K(至少一个)token的概率。以Fast-DetectGPT为例(如图1所示),我们首先从GPT模型中获取top-K候选的概率,然后利用这些概率估计整个词汇表上的分布。其基本思想是寻找最高概率与全词汇表概率之间的经验性关联。为此,我们考察了参数化的几何分布、Zipf分布以及基于数据训练的MLP模型来建模这种关联。通过Glimpse,我们还将诸如熵(Entropy)、排名(Rank)和对数排名(LogRank)等方法成功扩展到私有模型上。

概率分布估计的基本原理是使用一个参数化的分布函数,根据已经观测到的top-K概率值,唯一确定分布函数的参数,从而获得完整分布的函数表达。在每个token位置上,我们观察得到top-K token的概率 ,根据这些概率我们估计 的取值,同时满足离散分布总概率为1的约束。具体来说,我们考察了以下三种分布函数。

几何分布(Geometric Distribution)

其中 为未知参数,需要根据top-K概率和总概率约束来求解。

Zipf分布(Zipfian Distribution):

其中 和 为未知参数。根据top-K概率,我们可以求解一个最佳的参数组合。

MLP预测分布:

其中 为MLP模型参数。我们使用一个两层的MLP网络,输入top-K概率,预测其它概率。我们使用从gpt-neo-2.7B上采样的真实分布样本训练MLP网络,在预测时MLP模型保持不变。

图2:模型的真实分布和不同方法的预测分布

具体如图2所示,我们来对比一下不同模型的真实分布和不同估计方法的预测分布。首先看左侧(a)图,总体上不同模型的分布走向一致。我们重点关注“*”所代表的分布长尾部分的占比。可以看到,模型越大,这部分占比越小。相应的,其对整个分布的影响也越小。然后看右侧(b)图不同估计方法的预测分布。总的来说,Zipfian分布和MLP分布比较接近,而Geometric分布在长尾部分衰减的很快。

三、实验结果

预测分布的有效性

图3:预测分布和真实分布的差异,以及和检测指标之间的关系\

我们使用开源模型来检验概率分布估计的有效性。分别研究了预测分布和真实分布的差异,以及这种差异和检测指标的关联。首先,我们使用预测分布和真实分布的KL散度来度量其分布差异。如左图Figure 2所示,总体上top-K越大相应的KL散度越小。三个估计方法中,Geometric分布的KL散度大于其它两种。

然后,我们观察预测分布质量和检测效果的关联。如右图Figure 3所示,总体上KL散度越大(也就是说预测分布和真实分布差异越大),其对应的检测准确率(AUROC)越小。但在三种估算方法上表现并不一样,Geometric分布虽然KL散度整体大一些,但检测准确率整体却高一些。对比红星所代表的使用真实分布获得的检测准确率,我们可以看到在Fast-Detect和LogRank上,Geometric分布所获得检测准确率并没有下降多少。而在Rank方法上,估计分布所获得的准确率反而比真实分布的检测准确率高。

更强的AI文本检测效果

表1:五个大语言模型生成语料上的对比

在五个最新大语言模型生成的英文语料上,包括新闻、创意写作和技术问答领域,我们对比了使用开源模型gpt-neo-2.7B的基线,使用gpt-3.5的Fast-Detect将AUROC 从平均0.90提升到0.95。

更显著的多语言检测效果

表2:六个语言上的检测准确率的对比

在多语言场景下,效果更加明显。使用gpt-3.5的Fast-Detect将AUROC从使用gpt-neo-2.7B的平均0.88提升到0.97。

低误报率条件下更高的召回率

图4:在误报率1%和10%(红竖线)下的对比

在低误报率条件下,我们可以看到使用更强的私有模型,Fast-Detect在不同的源模型生成的语料上都获得了更高的召回率。

四、结语

主要结论: 使用预测的概率分布我们也能做到较高的AI生成文本检测准确率,说明这条技术路径可行。使用更强大的模型,我们能获得更高的检测准确率,说明更强大的模型本身也是更强大的检测器。我们也许不用担心模型越来越强生成的文本越来越难以检测,因为越来越强的大语言模型本身也是越来越强的AI 生成文本检测器。

未来展望:Glimpse使得文本检测白盒方法突破现有的模型限制,产生了一条新的研究路径。同时,相应的概率分布估计方法,也有可能帮助到其它方向的研究,比如幻觉检测等。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

瞻史
2026-05-04 14:56:22
杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

史韵流转
2026-04-08 09:42:46
湖南浏阳一烟花厂发生爆炸事故

湖南浏阳一烟花厂发生爆炸事故

澎湃新闻
2026-05-04 19:18:09
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
俄罗斯打破承诺,一艘满载油轮送到日本港口,高市终于松了一口气

俄罗斯打破承诺,一艘满载油轮送到日本港口,高市终于松了一口气

花小猫的美食日常
2026-05-04 19:38:45
火箭拒新控卫原因曝光:自认夺冠无望,再忍1年,下赛季卷土重来

火箭拒新控卫原因曝光:自认夺冠无望,再忍1年,下赛季卷土重来

熊哥爱篮球
2026-05-04 10:55:27
允许一切,自在随心

允许一切,自在随心

青苹果sht
2026-05-04 05:03:52
退休后才发现,大多数老人不旅游,去旅游的是这几类人

退休后才发现,大多数老人不旅游,去旅游的是这几类人

十点读书
2026-05-03 18:38:35
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
感谢特朗普!我国投入巨资建设的瓜达尔港,终于等来了大订单

感谢特朗普!我国投入巨资建设的瓜达尔港,终于等来了大订单

南生今世说
2026-05-02 17:56:11
中央明确!高校薪酬制度改革,来了

中央明确!高校薪酬制度改革,来了

麦可思研究
2026-05-04 17:04:28
牛!《消失的人》逆袭冠军,预测暴涨到5.6亿,陈思诚有对手了

牛!《消失的人》逆袭冠军,预测暴涨到5.6亿,陈思诚有对手了

得得电影
2026-05-03 13:28:45
张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

木子爱娱乐大号
2026-01-07 21:47:13
莫雷加德:中国队不必太过担忧,这周还有很多硬仗要打

莫雷加德:中国队不必太过担忧,这周还有很多硬仗要打

懂球帝
2026-05-04 09:44:16
中原大地明星谱——30名河南籍电影演员名录

中原大地明星谱——30名河南籍电影演员名录

陈意小可爱
2026-05-03 16:02:33
“高净值家庭”标准出炉,全中国共有512.8万户,你家达标了吗?

“高净值家庭”标准出炉,全中国共有512.8万户,你家达标了吗?

毒sir财经
2026-04-26 21:11:44
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
18亿+凌晨档+无国足!FIFA想割韭菜?亚洲多国说不,中国不惯着

18亿+凌晨档+无国足!FIFA想割韭菜?亚洲多国说不,中国不惯着

曹老师评球
2026-05-04 18:36:46
孙杨反击!瓜越吃越大,他和张豆豆怎么有勇气上真人秀的

孙杨反击!瓜越吃越大,他和张豆豆怎么有勇气上真人秀的

东方不败然多多
2026-05-04 16:52:08
3-1击败法国队!国羽男队卫冕汤姆斯杯,队史第12次夺冠

3-1击败法国队!国羽男队卫冕汤姆斯杯,队史第12次夺冠

全景体育V
2026-05-04 05:24:07
2026-05-04 21:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2364文章数 596关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

英媒:伊朗革命卫队要求特朗普“二选一”

头条要闻

英媒:伊朗革命卫队要求特朗普“二选一”

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
旅游
数码
本地
公开课

家居要闻

灵动实用 生活艺术场

旅游要闻

雨雾弥漫中摩旅进了松滋深山,在仙楼香村委露营,陪村民烧秸秆

数码要闻

IPI预热Haze X鼠标:PAW3955,支持Rapid Trigger

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版