“我们其实不太清楚它为什么做出某个判断。”Pangram公司CEO Max Spero在接受AI Policy Perspectives采访时,这样描述自家产品的AI文本检测工具。这家公司的检测器用的是一个深度学习分类器,但Spero很坦率地承认,他们对模型的预测结果几乎没有可解释性。
这意味着什么?当用户把一段文字扔进Pangram,系统会标记出一些可疑的短语。但这些只是线索。真正让机器露馅的,是语言模型在组织文档时留下的结构性痕迹。而这些痕迹的识别机制,连Pangram自己都没完全搞明白。Spero把它叫做“黑箱”——他知道它管用,却说不清它怎么管用。
![]()
这听起来有点反直觉。一个专门抓AI作弊的工具,其核心工作原理竟然自己也解释不了。但Spero并不回避这一点。在他看来,这恰恰说明AI生成的文本带有某种深层的、结构性的指纹。不是拼写错误,不是语法不通,而是语言模型在用一种人类不常用的方式排列句子、组织段落。
除了这种结构层面的破绽,Spero还指出了一个更微妙的行为特征:语言模型太“整齐”了。它们或许在语法和逻辑上比普通人表现更好,但问题出在多样性上。如果你让一个大语言模型就某个话题生成100个论点,这些论点会高度趋同,集中在很窄的范围内。而同样的话题拿给人来写,论点的分布会发散得多。
这就像100个人和100台AI同时参加一场辩论。人类辩手可能会从伦理、经济、情感、历史经验等完全不同的角度切入,互相碰撞出意想不到的观点。AI辩手呢?它们大概率会在几个相近的逻辑区间里打转,用相似的推理路径得出相似的结论。这种“千篇一律”的论证风格,本身就是一条隐形的马脚。
Spero给出的判断很直白:如果你想骗过Pangram,你需要写出更好的论点。不是更复杂的长句,不是更冷门的词汇,而是真正的思考角度上的变化。这意味着,对抗AI检测的最好办法,恰恰是不要像AI那样思考。如果你的写作习惯本身就带着人类思维的跳跃、偏见、甚至是不完美的逻辑缝隙,你可能压根就不需要担心被误判。
这引出一个更深层的观察:我们到底在检测什么?是检测一段文字是否由机器生成,还是在检测一种思维模式是否过度规整?Pangram的黑箱模型抓到的“结构性模式”,或许正是当前大语言模型在认知层面尚未突破的边界——它们擅长拟合,但不擅长创造真正的思想分歧。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.