![]()
去年全球内容审核市场规模冲到47亿美元,但一个扎心的事实是:市面上99%的AI检测工具都在收智商税。一位经营内容 agency 的朋友上周跟我喝咖啡时吐槽,「我们试遍了所有检测器,全是 snake oil(蛇油,即骗局)」。我说我能做个更好的。他笑了。合理。
我最终做出来的工具完全在浏览器本地运行——不用上传、不用订阅、没有按次收费的云端 API。它用10项统计指标和18个句子级信号,判断一段文字出自人手还是 ChatGPT、Claude、Gemini 或者这周流行的什么大模型。
这篇文章想解释它到底怎么工作的。因为大多数「AI 检测器」的营销页面,都在故意模糊方法论。
为什么困惑度和突发性单独用会翻车
每篇讲 AI 检测的博客都会提到困惑度(perplexity)和突发性(burstiness)。这俩指标真实存在,也确实能测出点东西。但测试几周后我发现一个尴尬真相:GPT-4 和 Claude 这类现代模型,生成的文本困惑度高、突发性也高。它们被训练得像人类。只靠这俩指标抓 AI,相当于抓小偷只查他有没有走正门。
困惑度衡量词序列的可预测性(低=机械,高=有创意)。突发性衡量句子长度变化(低=整齐划一,高=参差不齐)。2022年的老派 AI 在这两项上惨败。但2025-2026年的模型?轻松过关。
我用10个确定来源的 URL 做基准测试——从 MIT Technology Review 到普通 SEO 咖啡博客,既有确认 AI 生成的,也有确认人类写的。测完后,这些组合信号才真正有用:
齐普夫定律(Zipf's Law)符合度是最靠谱的单一指标。所有自然语言都遵循齐普夫定律:第二常见的词出现频率是第一的一半,第三是第一的三分之一,依此类推。人类文本会偏离这条曲线——我们会 fixation 在某些词上,跑题,做奇怪的选择。AI 文本几乎完美符合,因为它从概率分布采样,输出本身就是齐普夫分布。我计算对数排名 vs 对数频率的 R 平方值,超过0.96就可疑。
重复句首词简单到丢人,但能抓大量 AI。统计多少句子以同一个词开头。AI 酷爱用「The」「This」「It」「In」开头。我见过 AI 博客70%以上的句子只用这四个词打头。人类不用刻意就很 messy。
标点熵测量标点间距的香农熵。AI 放逗号和句号的位置出奇规律。人类是混乱的——有时连写三个短句,然后一个长句塞五个逗号,再
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.