当 AI 开始”吃自己拉的东西”：废料时代，模型还能越练越聪明吗？|算法|翻译|多模态

当 AI 开始”吃自己拉的东西”：废料时代，模型还能越练越聪明吗？

2026-05-07 20:56:55　来源: 我不叫阿哏

广东举报

分享至

当AI批量生成的内容充斥各大平台，我们是否正在见证一场‘信息同质化’的灾难？本文深度剖析了‘AI废料’的四大特征，揭示了模型崩溃背后的学术研究，并提出了四条破解路径。从技术水印到信任源头，从质量信号到AI自评，这场内容生态的保卫战正在重塑产品经理的思考框架。

如果你最近经常刷小红书、知乎、公众号，可能也有同样的感觉：

文章越来越多，但好像越来越没意思了。

打开一篇标题很吸引人的科普文，读两段就发现——这语气、这套路、这”首先……其次……最后”的三段式结构，怎么这么熟悉？再翻几篇，发现都是一个味儿。

不是错觉。是 AI 写的。

更准确地说，是一大批人用 AI 批量生成的内容。一个人一天能写一篇，AI 一小时能产出一百篇。它们被发到各大平台，被搜索引擎收录，被推荐算法分发，最终又变成下一代 AI 训练时的”教材”。

问题来了：当互联网上一半以上的新增内容都是 AI 生成的，下一个版本的 AI，到底是在向人类学习，还是在向自己学习？

这件事，听起来有点像那个段子：一条蛇饿了，开始咬自己的尾巴。

什么叫”AI 废料”？

先把话说清楚——不是所有 AI 生成的东西都叫废料。

一个产品经理用 AI 帮自己润色 PRD，思路是他自己的，AI 只是帮他把句子写得更通顺，这不算废料。一个研究员用 AI 帮自己整理文献综述的初稿，再人工核对修改，这也不算废料。

真正的废料长这样：

没有真实信息增量，只是把已有内容换个说法重写一遍
没人审校，错了也没人改，AI 一本正经地胡说八道（业内叫”幻觉”）也照发不误
标题党和关键词堆砌，目的不是让人看懂，是让算法收录
同一个主题用不同 prompt 生成几十篇，洗成”原创”批量铺货

简单说，废料的核心特征不是”AI 写的”，而是”没人对它的质量负责”。

过去做内容农场，至少还得雇一群兼职写手手动洗稿，成本摆在那，量有上限。现在一个人加几个 API key，一晚上能产出过去一个团队一个月的量。生产成本暴跌了几个数量级，但筛选成本几乎没变——这就是问题的根源。

“模型崩溃”：AI 吃自己产出的东西，会怎样？

这不是危言耸听，学术界已经有名字了，叫Model Collapse（模型崩溃）。

2023 年牛津、剑桥几所大学的研究者做过一个实验：他们让一个语言模型生成一批文本，然后用这批文本去训练下一代模型，再让下一代生成、再训练下下一代……如此反复。

结果是什么？

前几代还看得过去，到了第七、第八代，模型开始胡言乱语，输出大量重复的、毫无意义的句子。

更直观的解释是这样的：把人类写的内容想象成一片森林，里面有高大的树、低矮的灌木、奇奇怪怪的蘑菇——多样性很丰富。AI 学习之后能复刻这片森林的”平均样貌”，但那些罕见的蘑菇、那些奇怪的树枝，它会下意识地省略掉，因为它的本能是”输出最可能的答案”。

如果下一代 AI 只看这个被简化过的森林，它就再也学不到那些蘑菇和奇枝的存在。再下一代、再下一代……几轮之后，森林就变成一片只有几种常见树的工业林场。

这就是模型崩溃：长尾消失，多样性枯萎，AI 输出越来越平庸、越来越同质化。

听起来是不是有点像现在的内容平台？

那 AI 怎么识别哪些内容”能吃”？

这是个好问题，也是当下 AI 公司、平台、研究者都在头疼的问题。目前主要有这么几条思路。

思路一：技术手段——给 AI 内容打”水印”

最理想的方案是：让 AI 生成的每段文字都带一个人眼看不到、但机器能识别的标记。Google 的 SynthID、OpenAI 也在研究类似技术。

听起来很美，但现实是：

水印只对”主动配合”的 AI 公司有效，开源模型不打水印你也没办法
内容经过翻译、改写、二次编辑，水印基本就没了
各家 AI 公司各搞一套，互不通用

所以水印能解决一部分问题，但解决不了大头。

思路二：数据来源筛选——回到”信得过的源头”

如果新内容鱼龙混杂，那就只用旧的、可信的内容怎么样？

很多顶级模型现在确实在这么做——更看重权威出版物、学术论文、专业书籍、有编辑审校的媒体。但这又带来新问题：世界一直在变化，你不能永远只用 2022 年以前的数据训练 AI。否则它就不知道今天发生了什么。

折中的办法是建立”高信任源”白名单——比如医疗内容只采纳医学期刊和正规医院网站，法律内容只采纳官方法规和判例数据库。这个方向各大平台都在做，但覆盖不了所有领域，而且白名单本身也有偏见。

思路三：质量信号——让人和数据说话

这个思路更贴近产品视角：不是判断”这是不是 AI 写的”，而是判断”这内容有没有价值”。

判断价值的信号有很多：

有没有原创信息：比如独家的数据、采访、案例
有没有人愿意为它停留：阅读时长、收藏率、转发率
有没有专业人士背书：作者身份、机构属性、被引用情况
能不能经得起事实核查：和已知的可信源是否一致

简单说，与其纠结”是不是 AI 写的”，不如直接看”对人类有没有用”。一篇 AI 辅助但人工把关的深度好文，比一篇人手写但全是车轱辘话的水文，价值高得多。

思路四：让 AI 自己来打分

听起来有点玄学，但确实在用。让一个更强的 AI 去评估一段内容的质量——比如它的逻辑是否自洽、是否有事实错误、是否在重复已知信息。这种方法在大模型训练里叫 RLAIF（AI 反馈强化学习）。

它的好处是规模大、成本低；坏处是裁判员和运动员有时候是同一种生物，容易”近亲繁殖”，把 AI 自己的偏见放大。

产品经理可以从这件事里看到什么？

讲了这么多，最后落到我们最关心的问题：作为做产品的人，这件事跟我们有什么关系？

我觉得至少有三层启发。

第一层：内容生态的护城河，正在从”量”变成”信任”。

过去做内容平台，比的是 SKU 数量、更新频率、覆盖广度。现在 AI 把”量”这一项打到地板价了——任何人都能在一夜之间灌满一个垂类。未来真正稀缺的，是”这个内容你能信”这件事。无论是用户对作者的信任、平台对内容的审核、还是机构背书的可信度，都会变得更值钱。

第二层：好的产品设计，要开始把”人的判断”显式地放进流程。

过去我们追求”自动化、智能化、不需要人介入”，现在反过来——在 AI 大量介入的环节，显式地保留人类把关的位置反而是亮点。比如医疗 AI 助手最后必须由医生确认，法律 AI 答案必须标注律师审核状态，知识社区给真人创作打专属标识。这不是退步，是新的产品语言。

第三层：差异化不在工具，在用工具的人。

未来人人都用 AI，所以”我用了 AI”已经不是优势。优势是：你的提问比别人深，你的判断比别人准，你愿意比别人多花一道人工核校。AI 是放大器——放大聪明人的产出，也放大水货的产出。它本身不解决品味问题。

回到开头那个问题：当 AI 开始大量”吃自己拉的东西”，模型还能越练越聪明吗？

老实讲，没人知道终局。可能某一天人类会发明一种神奇的算法把废料和精品自动分开，也可能我们就是会经历一段内容质量下滑的低谷期，然后慢慢恢复平衡。

但有一件事我比较确定：AI 时代的内容生态，最稀缺的不是产能，而是品味和责任感。

机器可以无限生成，但”这一段值得被读”这件事，到现在还得有人来负责。

也许这正是我们这些做产品、做内容、做判断的人，长期来看真正的价值所在。

本文由 @JK硅行者原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

当 AI 开始”吃自己拉的东西”：废料时代，模型还能越练越聪明吗？

追赶星舰：中国商业火箭离SpaceX有多远？

牛弹琴：一觉醒来美伊又打起来了 阿联酋被指首次参战

牛弹琴：一觉醒来美伊又打起来了 阿联酋被指首次参战

巴黎再进欧冠决赛，最尴尬的情况还是发生了

Lisa主持！宁艺卓观看脱衣秀风波升级

一觉醒来，美伊又打起来了

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

杭州网红“抹茶森林”上线 游人徜徉其间感受绿野仙踪

苹果在英国被起诉，用户可能获赔70英镑？

豪掷6.8亿拿地！何猷君大手笔投资三亚！

《GTA6》NS2版重磅传闻!R星希望首发上线 机能太强

21 岁徐悲鸿画的 “天价仙女”，被网友骂 “生无可恋”

牛弹琴：一觉醒来美伊又打起来了阿联酋被指首次参战

牛弹琴：一觉醒来美伊又打起来了阿联酋被指首次参战

杭州网红“抹茶森林”上线游人徜徉其间感受绿野仙踪

《GTA6》NS2版重磅传闻!R星希望首发上线机能太强