从最近的洗稿争议，想到大模型训练的素材许可|文章|启发

从最近的洗稿争议，想到大模型训练的素材许可

2026-01-06 12:20:35　来源: 刘远举

上海举报

分享至

最近，又因为洗稿的事吵起来了。

不表态，也没有明确的态度，就说说看法。我记得多年前一位作家，撰文说自己梦中偶得一佳句“江湖夜雨十年灯”，结果不想是黄庭坚的诗句，被人笑话了一阵。

洗稿，是处于“人人都知道，但却难以下定论”的一种状态。

这其实很正常，很合理。

因为，著作权法保护的是思想的表达而非思想本身。思想一般指概念、术语、原则、客观事实、创意、发现等等。表达则一般指是指对于思想观念的各种形式或方式的表述，如文字的、音符的、数字的、线条的、色彩的、造型的、形体动作的表述或传达等。显然，洗稿就是从表达上改变，从而避开著作权法。严格地说，通过“洗稿”方式，篡改删减，是可以不构成侵权抄袭剽窃原创作品的。

知识产权的保护，本来就存在一定的模糊性。中国知识产权法学界的泰斗郑成思曾说：“知识产权是一门诡辩的学科。

其实，要讲独创思路、观点的话，这么多年，我就太多了，我文章的特点就是有观点。都要追究，哪里追究得完。当然，我并不觉得该追究。别说所谓观点，各类期刊直接把文章拿去发，cnki一查。都很多。这个其实可以追究，但也麻烦。

比如，“智力的回归”这个概念，我最初发在腾讯大家上的，把身高回归的规律用在了智力上。我在网上搜索过，在我之前，没人这么说过。如今，十多年过去，已经成为常识了。那么，这是观点的传播还是洗稿？我能要求人人提到“智力回归”都提到我的名字吗？显然，文章不是论文，没办法这样要求。那么，不洗稿，观点能传播吗？

其实，腾讯的洗稿评议机制，也在我公开发表的文章之后。当时是六神磊磊指控另一个大号周冲洗稿，引发业内热议。我当时提出，洗稿不违法，所以只能用行业评议解决。我是这么写的：

洗稿乃至抄袭，大致上确定只需要两个初中生，5分钟，20块钱。但法律上确定，需要请两个博士后，5个月，200万。如果洗稿的维权成本从后者变为前者，维权就会变得简单。所以，只有通过贝叶斯后验的理念来进行判断，即通过观察到的信号来判断发出信号的本质。简单地说就是，如果一只鸟多次看起来像鸭子，多次听起来像鸭子，那么，它就是鸭子。

后来腾讯就有了洗稿评审，现在，我也不时能收到评议需求。不过，我当时提出的是对公号原创程度的标识，腾讯现在应该是直接删除。我提标注，是因为洗稿并不侵权，删除有法律风险。不过，腾讯可以基于用户协议删除。

这类例子，很多我也想不起了。

比如，最近想写一篇文章，核心观点就几个字“优质教育资源，是不可能增加的，因为拼教育资源是为了竞争，而不是多学知识。人们要的是排序，而不是绝对值。”这个观点，随着国家抹平内卷的效率，过个十来年也许也会成为常识。

但法律并不能，也不该保护“观点是我的”。因为传播必然伴随启发，传播和启发是同时发生的，而且，启发应该再次被传播。而且，这个过程，正是法律想要保护的。某种程度上，它也是作者本身想达到的目的。

我们追求的正是这种外部性。

天下文章一大抄，这话说的是一个一直存在的现象。这其实很难免。

太阳之下无新事，常识需要不断说，被别人重复，被自己重复。当然，我用自己之前的说理，我肯定会改改，不能完全一样，或者引入当时的具体事件。再比如某个2万字的报告，有人总结了，我拿过来，改一下就用。或者某个新闻，有人总结了，我改一下用。一般来说，我接到洗稿评议，文章只是洗一两段，不是核心部分，我不会给出洗稿的判断。

对于洗稿质疑，当然还没人质疑过我哈，我觉得是不需要回应的。因为我就是观点产出型的，洗稿的指控对我不会有多大伤害。这同样是基于贝叶斯后验的，要多次看起来像洗稿，才能构成对能力的质疑。

写这篇文章的时候，从洗稿想到AI训练的版权问题。这也是最近知识产权领域的争论点。现在有很多观点了，我补充一个更底层的。（写完了才发现，这本身就是一个关于观点传播和洗稿的辨析例子）

第一个问题，训练是不是对素材的商业性应用？

如果一个人看了一部电影，比如阿凡达，从中受到启发，创造了另一种外星人的形象。这个形象不侵权，完全不一样。那么，可以说他对阿凡达进行了商业性应用吗？

一本书，让一个人读了，这个人学到一个道理，一个句式，产生了一幅图像，得到一个灵感，应用到了另一个地方。

这就是所谓的“启发”。显然，这不构成对这本书、这部电影的商业应用。正如我前面所说，法律不可能限制“启发”——这正是知识产权保护想要达到的目标。

那么，就进到第二个问题：启发这个词，形容的是一种触类旁通的关系，是发散的、具有不确定性的智能上的因果关系。只有人才具有智能，所以，只有人才能受到启发。那么，机器，从训练到生成文本或图片，还是“启发”吗？

如果不是，反过来，则构成对素材的商业应用。某种程度上，就是另一种形式的洗稿。

那么，AI训练，从训练到生成新文本，是一种洗稿还是启发？

如果计算机具有智慧的某种特征，那么，就可以视为启发。现在说大模型已经有了涌现现象，应该视为一个智能体。我觉得更关键的是，涌现具有发散性、不确定性的特征。

大模型中有很多随机性。比如，temperature参数会直接改变输出token的概率，这个参数甚至可以从外部环境调用，以获得随机性。

openai的api中也用seed这个参数来改变生成策略的随机种子。

不同型号的GPU 之间的浮点数计算可能会略有差异，不能保证bit级别的一致性。这些差异，在巨大的参数累积下，刚开始生成的token是一样的，但是从某个 token 开始，后续的生成结果就不一样了。从这个角度，涌现，也有发散、不确定性的特征。

这些随机性，很多已经是不可还原的了。这种不可还原的发散和不确定性，可以认定类似人类智慧，所以，训练是被启发，而不是洗稿，那么，就不构成商业应用，就无需许可。

单纯从数量上说，资料浩如烟海，参数多数繁星，很难认定“素材——产出”的因果关系。而没有这种因果关系，当然不构成商业应用，所以，自然不需要特殊的许可。凡是公开的，都可以被合法地用来训练。

或者说，只要被人看到是合法的，无需许可，那么，被用来训练，就无需许可。

需要注意的是，有这样一种论证方式：人作为智能体，是有民事权利的。这是“启发”的法律前提。但显然，大模型没有这个资格，所以，它不能被“启发”。但是，这种论证只是循环论证。

这一段中，一些技术细节，是我查阅的，然后拿来用了，另一些技术细节我本来就知道（当然，也是从其他地方看到），但这都并不影响我这段论述的原创性。

这一段论述，遇到相关话题，我肯定是要用的，不然挺可惜的。如果有人洗稿了，我也会不高兴，但时间足够长，我也就无所谓了。总之，要求高没错，辩解也没错，都不必太在意。

刘远举

央视网、第一财经、光明日报、腾讯大家、南方周末、新京报、南方都市报、FT中文网、澎湃等特约作家，多家智库研究员。

关注时政、财经、科技话题，以深度、专业、理性的态度，去掘现象背后的事实。

中国科技自媒体50人

第35届中国新闻奖评论三等奖

第34届中国经济新闻奖评论二等奖

第28届北京新闻奖一等奖

2024年湖南新闻奖一等奖

腾讯大家年度作家奖

新浪最有价值专栏作家奖

红辣椒评论年度佳作奖

已开快捷转载，欢迎转载

已开过白名单的公众号，转载请遵循转载规则

您的关注是最好的支持！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.