OpenAI把检测器做成摆设，这哥们用18个指标反杀|序列|齐普夫|新论文|openai

OpenAI把检测器做成摆设，这哥们用18个指标反杀

2026-04-10 08:59:08　来源: 像素与芯片

北京举报

分享至

去年全球内容审核市场规模冲到47亿美元，但一个扎心的事实是：市面上99%的AI检测工具都在收智商税。一位经营内容 agency 的朋友上周跟我喝咖啡时吐槽，「我们试遍了所有检测器，全是 snake oil（蛇油，即骗局）」。我说我能做个更好的。他笑了。合理。

我最终做出来的工具完全在浏览器本地运行——不用上传、不用订阅、没有按次收费的云端 API。它用10项统计指标和18个句子级信号，判断一段文字出自人手还是 ChatGPT、Claude、Gemini 或者这周流行的什么大模型。

这篇文章想解释它到底怎么工作的。因为大多数「AI 检测器」的营销页面，都在故意模糊方法论。

为什么困惑度和突发性单独用会翻车

每篇讲 AI 检测的博客都会提到困惑度（perplexity）和突发性（burstiness）。这俩指标真实存在，也确实能测出点东西。但测试几周后我发现一个尴尬真相：GPT-4 和 Claude 这类现代模型，生成的文本困惑度高、突发性也高。它们被训练得像人类。只靠这俩指标抓 AI，相当于抓小偷只查他有没有走正门。

困惑度衡量词序列的可预测性（低=机械，高=有创意）。突发性衡量句子长度变化（低=整齐划一，高=参差不齐）。2022年的老派 AI 在这两项上惨败。但2025-2026年的模型？轻松过关。

我用10个确定来源的 URL 做基准测试——从 MIT Technology Review 到普通 SEO 咖啡博客，既有确认 AI 生成的，也有确认人类写的。测完后，这些组合信号才真正有用：

齐普夫定律（Zipf's Law）符合度是最靠谱的单一指标。所有自然语言都遵循齐普夫定律：第二常见的词出现频率是第一的一半，第三是第一的三分之一，依此类推。人类文本会偏离这条曲线——我们会 fixation 在某些词上，跑题，做奇怪的选择。AI 文本几乎完美符合，因为它从概率分布采样，输出本身就是齐普夫分布。我计算对数排名 vs 对数频率的 R 平方值，超过0.96就可疑。

重复句首词简单到丢人，但能抓大量 AI。统计多少句子以同一个词开头。AI 酷爱用「The」「This」「It」「In」开头。我见过 AI 博客70%以上的句子只用这四个词打头。人类不用刻意就很 messy。

标点熵测量标点间距的香农熵。AI 放逗号和句号的位置出奇规律。人类是混乱的——有时连写三个短句，然后一个长句塞五个逗号，再

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.