互联网三分之一新站是AI写的|算法

分享至

2022年8月之前，这个数字是零。三年后，35%的新网站被标记为AI生成。斯坦福和伦敦帝国理工的研究团队翻遍了互联网档案馆33个月的网页快照，得出一个让人脊背发凉的结论：人类用了三十年塑造的网络生态，正在被另一种"作者"以三倍速重写。

研究团队怎么发现这件事的

这个横跨斯坦福、伦敦帝国理工和互联网档案馆的团队，给论文起了个直白的名字：《AI生成文本对互联网的影响》。他们没靠猜，而是调用了Wayback Machine的CDX服务器接口，把2022年8月到2025年5月之间的新网站挨个扒了底朝天。

具体操作很朴素：对每个采样网址，抓取最早存档的网页快照，下载原始HTML存到本地。然后塞进一个叫Pangram v3的AI检测工具——团队测了好几个同类工具，这个检出率最高。

检测逻辑也不复杂。Pangram v3给每个网站打一个"AI可能性分数"，分数够高就标记为AI生成或AI辅助创作。再用这批标记网站当样本，去验证另外六个关于AI内容的流行质疑。

论文作者之一、斯坦福AI研究员Jonáš Doležal对404 Media说：「互联网被AI接管的速度让我震惊。人类塑造了它几十年，却在短短三年内让相当一部分内容被AI定义。」

六个质疑，逐一验证

研究团队列了六条市面上最常见的AI内容批评，每条都设计了可量化的检测信号：

第一，观点多样性是否萎缩？第二，幻觉泛滥是否制造更多虚假信息？第三，网络写作是否变得过度"消毒"和乐观？第四，引用来源是否更敷衍？第五，语义密度是否降低（简单说就是废话变多）？第六，独特声音是否消失，取而代之的是千篇一律的通用风格？

验证虚假信息那条，团队提取了网站中的事实性主张，再交叉比对可信度数据库。验证"消毒感"那条，他们分析了文本的情感极性和正式程度。每条假设都有对应的数学指标，按月计算，再和AI可能性分数做相关性测试。

结果有些反直觉。研究团队发现，AI生成的内容并没有让互联网变得更阴暗或更偏激——恰恰相反，它让网络整体变得更"愉快"，也更简洁。

「AI生成和AI辅助文本的泛滥，原本被担心会导致语义和风格多样性退化、事实准确性下降等负面发展。」论文里这样写道。但实际测出来的部分指标，和预设的悲观剧本并不一致。

35%这个数字意味着什么

2022年11月ChatGPT发布前，新网站的AI生成比例是零。到2025年中，每三个新网站就有一个是AI写的。这个曲线不是线性增长，而是典型的技术扩散S型——前期缓慢，中期陡升，后期趋稳。

研究团队没透露具体检测阈值，但Pangram v3的判定标准应该相当严格。这意味着实际比例可能更高——很多AI辅助编辑、AI生成初稿再人工润色的内容，可能没被计入这35%。

更值得玩味的是"AI辅助"这个分类。它和"AI生成"被合并统计，但两者的创作权重天差地别。一个用ChatGPT改语法的人，和一个完全靠提示词产出整篇文章的人，被归在同一栏里。这种模糊性本身就是研究局限，但也反映了现实：人机协作的边界已经很难划清。

互联网档案馆的数据优势在这里凸显。Wayback Machine存了二十多年的网页快照，让研究者能精确锚定"ChatGPT前夜"这个基准点。没有这个历史对照，35%就只是个孤立数字，看不出爆炸性。

为什么内容变得更"愉快"了

研究团队测出的"更愉快、更简洁"特征，其实暴露了AI写作的训练偏好。大语言模型的RLHF（基于人类反馈的强化学习）阶段，标注员普遍偏好礼貌、积极、结构清晰的回答。这种偏好被编码进模型权重，再被无数用户复制粘贴到互联网上。

结果是网络文本的情感极性整体右移——负面表达被稀释，复杂情绪被平滑，争议性观点被包装成无害的"一方面另一方面"。这不是阴谋，是优化目标的副产品。模型被训练成" helpful assistant"，互联网就跟着变成helpful internet。

但"愉快"不等于"真实"。研究团队的检测方法捕捉的是语言风格，不是事实准确性。一个AI生成的健康谣言，可能比人类写的严肃科普更"愉快"、更"简洁"，也更危险。

论文作者承认这个局限。他们测试了虚假信息假设，但没在摘要里公布具体结论——可能数据还不够显著，也可能结果太敏感。无论如何，"风格消毒"和"事实可靠"是两个维度，前者改善不能自动推出后者。

检测工具本身的悖论

整个研究建立在Pangram v3的判定之上，但AI检测工具的可靠性一直是行业痛点。误报（把人类写作标成AI）和漏报（把AI写作标成人类）都普遍存在，而且随着模型迭代，检测窗口期越来越短。

研究团队的选择逻辑很务实：测了几个工具，选检出率最高的。但这不解决根本问题——检测器和生成器在军备竞赛，今天的"最高检出率"可能明天就失效。论文数据截止到2025年5月，而GPT-4级别的模型还在快速迭代。

更深层的问题是：当我们说一个网站"AI生成"，到底在指什么？是100%机器产出？是50%机器+50%人工？还是仅仅用了语法检查？Pangram v3的内部机制不公开，研究团队也没做人工抽检验证。35%这个数字的颗粒度，取决于黑箱工具的判定标准。

即便如此，趋势的方向性很难质疑。从零到三分之一，这个跃迁幅度远超检测误差的可能范围。就算实际比例是25%或45%，结论不变：AI内容正在重构网络的信息地基。

对内容生态的连锁冲击

AI生成网站的爆发，首先冲击的是搜索引擎的排名逻辑。Google的算法传统上依赖"原创性"和"权威性"作为质量信号，但这两个概念在AI时代需要重新定义。一个AI生成的医疗科普页面，可能比人类写的过时文章更准确、更完整——它算高质量还是低质量？

研究没涉及搜索排名，但提到了"语义密度"测试。AI文本确实被批评为"正确的废话"，信息熵低于人类写作。如果搜索引擎开始用类似Pangram的指标降权AI内容，可能误伤大量优质的人机协作作品；如果无视这个维度，又可能让低价值AI内容淹没结果页。

其次受冲击的是内容平台的审核成本。YouTube、TikTok、微信公众号都需要判断内容是否违规，AI生成比例飙升意味着审核对象的数量级膨胀。更麻烦的是，AI内容往往更"合规"——它天生规避敏感词，自动对齐平台政策，反而让异常检测更难。

研究团队测试的"观点多样性萎缩"假设，直接指向这个风险。如果AI写作趋同于少数几种"安全"风格，网络公共讨论可能表面繁荣、实质单调。这不是算法推荐造成的信息茧房，是内容生产端的同质化——所有人都在用同一个工具，工具输出同一个调性。

谁在为这35%买单

AI生成网站的背后，是明确的成本计算。一个外包写手千字报价200-500元，ChatGPT API处理同等字数成本不到1元。对SEO农场、联盟营销站点、批量站群来说，这个价差就是利润空间。

研究没区分网站类型，但互联网档案馆的采样逻辑会覆盖各种规模。从个人博客到企业官网，从新闻聚合到电商落地页，35%是跨品类的平均数。某些垂直领域——比如产品评测、旅游攻略、健康科普——的实际比例可能远高于此。

这些站点的商业模式高度同质化：流量变现。广告联盟、联盟链接、线索收集，底层逻辑都是低成本内容换高价值曝光。AI把内容成本压到接近零，直接放大了这种模式的规模效应。一个运营者管理1000个AI站点，在技术上已经没有障碍。

但成本转嫁到了别处。读者花更多时间筛选信息，平台花更多资源对抗垃圾内容，广告主为无效曝光付费。研究测量的"更愉快"风格，可能是这种效率优先逻辑的副产品——愉快的内容转化率更高，就这么简单。

检测与反检测的军备竞赛

Pangram v3能检出35%，但检出本身就在刺激对抗升级。已经有工具专门"人性化"AI文本——通过插入拼写错误、调整句式节奏、混入个人化表达，让检测器误判。这种对抗和杀毒软件与病毒的博弈同构，没有终点。

研究团队的应对是方法论层面的：他们用的是历史存档数据，而非实时抓取。这意味着检测对象是"已经完成"的网页，不是经过反检测处理的版本。但这种优势会随时间衰减——未来的AI站点可能从诞生第一天就内置反检测层。

更深的问题是谁来定义"AI生成"。研究者的分类是技术性的，但社会需要的分类是伦理性的。一个用AI辅助研究的调查记者，和一个用AI批量生产假新闻的农场主，共享同一个技术标签，承担完全不同的道德重量。Pangram v3区分不了这两者，任何纯技术检测工具都区分不了。

论文作者对此有清醒认识。他们在引言里引用"死亡互联网理论"——那个认为网络已成 bots 互相对话的阴谋论——但研究目的恰恰是给这种恐慌提供实证锚点。35%是事实，不是预言；是现状描述，不是末日判决。

内容创作者的实际处境

对25-40岁的科技从业者来说，这个研究最直接的启示是：写作作为技能正在分层。基础的信息整合、格式规范、语言润色，AI已经做到成本趋零。但研究的六个测试维度里，至少有两项AI尚未攻克：独特声音和深度事实核查。

"风格趋同"是AI的弱点也是人类的护城河。当35%的内容共享同一种"愉快而简洁"的调性，偏离这个调性反而成为差异化策略。不是更AI，是更不可预测——更依赖个人经验、更敢于矛盾表达、更愿意暴露思考过程。

事实核查的壁垒更高。研究测试了虚假信息假设，但没公布结论，可能正是因为AI在这个维度表现不稳定。幻觉问题没有根治，多模态内容（图片、视频、数据可视化）的核查更是空白。这些高摩擦环节，暂时还需要人类介入。

但"暂时"是多久？论文的33个月数据已经显示，AI能力的爬坡速度远超预期。2022年11月还是零，2025年中就三分之一。按照这个曲线，下一个三年可能覆盖绝大多数基础内容生产。创作者的时间窗口，比感觉上的更紧迫。

平台算法的隐性重写

研究没涉及但值得追问的是：平台推荐系统如何应对这个变化？如果35%的新内容共享相似的语义特征和情感极性，协同过滤算法会放大这种同质化——喜欢一个AI站点，就推荐更多同类AI站点。

这形成正反馈：AI内容更易被检测为"高质量"（因为符合平台优化目标），获得更多流量，激励更多AI内容生产。人类创作者要么适应这个风格模板，要么被边缘化。研究的"更愉快"发现，可能是这种选择压力的结果，而非AI的内在属性。

互联网档案馆的存档数据有个独特价值：它记录了平台算法干预前的原始内容。一个网页在2023年3月被存档，和它在2023年3月的实际访问量、推荐权重，是完全不同的两回事。研究测量的是生产端，消费端的扭曲需要另一套数据。

对内容创业者来说，这意味着流量逻辑正在脱钩于内容质量。AI站点能以极低边际成本抢占关键词、覆盖长尾需求，人类创作者的知识溢价被压缩。研究的35%是全网平均，在某些红海关键词下，这个比例可能接近100%。

研究方法的局限与启示

论文的采样范围是"新网站"，而非"新内容"。一个2020年创建的博客，2024年发布的AI生成文章，不会被计入35%。这个定义缩小了统计口径，但也更精确——它捕捉的是"为AI内容而创建"的基础设施，而非既有平台的渐进改造。

另一个局限是语言。Pangram v3的检测能力主要针对英语，多语言内容的AI生成比例可能不同。但考虑到ChatGPT等工具的英语训练数据优势，非英语内容的AI渗透率大概率更低，而非更高。

时间窗口的选择也有讲究。2022年8月到2025年5月，恰好覆盖ChatGPT发布到研究截止。这个33个月的切片，可能是互联网历史上最剧烈的内容生产方式转型期。未来的研究者会羡慕这个团队的数据时机——他们抓住了从零到三分之一的完整曲线。

对行业观察者而言，这篇论文的价值在于方法论示范：用存档数据建立历史基线，用检测工具量化趋势，用假设检验对抗直觉偏见。"死亡互联网理论"是情绪，35%是事实。两者之间的差距，就是研究能填补的空间。

创作者的实际应对策略

面对35%的AI内容占比，人类创作者没有撤退空间，只有升级选项。研究的六个测试维度，可以转化为具体的差异化策略：

对抗"语义密度降低"：刻意增加信息熵，用具体案例替代抽象概括，用数据点替代形容词堆砌。AI擅长流畅的废话，人类应该擅长不流畅的真知。

对抗"风格趋同"：建立可识别的个人标记——特定的过渡词、独特的论证节奏、固定的自我引用方式。这些对AI来说是噪声，对读者来说是锚点。

对抗"引用敷衍"：深入信源层级，引用一手访谈、原始数据、边缘文献。AI的内容止于公开网络的平均深度，人类的竞争优势在地下一层。

对抗"情感消毒"：保留矛盾、犹豫、修正的痕迹。AI输出的是结论态，人类可以展示过程态。思考的诚实性，是目前最难被模仿的特征。

这些策略的共同点是：主动选择低效率。AI的内容生产优化速度、成本、规模，人类只能反向操作——用更慢的速度、更高的成本、更小的规模，换取不可压缩的真实性。

研究的35%是一个警告，也是一个机会。当基础内容供给过剩，稀缺性重新向高端移动。不是所有人都能完成这个移动，但移动本身定义了下一个阶段的内容价值标准。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

互联网三分之一新站是AI写的

夭折的造富神话，逼着中国AI回去赚"慢钱"

阿联酋突然退出欧佩克 被视为是"特朗普的一次胜利"

阿联酋突然退出欧佩克 被视为是"特朗普的一次胜利"

魔术黑八活塞，一步之遥？！

蔡卓妍官宣结婚，老公比她小10岁

多地药店违规串换商品套刷医保揭秘

拒绝疯狂套娃！现代艾尼氪金星长在未来审美点上

态度原创

选调考试到底好不好

棒鸡对《命运2》支持力度下降 多数资源转向马拉松

用青花瓷的方式，打开西溪湿地

育儿压力让你感到疲惫吗？看看美国外科医生的建议

阿联酋突然退出欧佩克被视为是"特朗普的一次胜利"

阿联酋突然退出欧佩克被视为是"特朗普的一次胜利"

棒鸡对《命运2》支持力度下降多数资源转向马拉松