最近,又因为洗稿的事吵起来了。
不表态,也没有明确的态度,就说说看法。我记得多年前一位作家,撰文说自己梦中偶得一佳句“江湖夜雨十年灯”,结果不想是黄庭坚的诗句,被人笑话了一阵。
洗稿,是处于“人人都知道,但却难以下定论”的一种状态。
![]()
这其实很正常,很合理。
因为,著作权法保护的是思想的表达而非思想本身。思想一般指概念、术语、原则、客观事实、创意、发现等等。表达则一般指是指对于思想观念的各种形式或方式的表述,如文字的、音符的、数字的、线条的、色彩的、造型的、形体动作的表述或传达等。显然,洗稿就是从表达上改变,从而避开著作权法。严格地说,通过“洗稿”方式,篡改删减,是可以不构成侵权抄袭剽窃原创作品的。
知识产权的保护,本来就存在一定的模糊性。中国知识产权法学界的泰斗郑成思曾说:“知识产权是一门诡辩的学科。
其实,要讲独创思路、观点的话,这么多年,我就太多了,我文章的特点就是有观点。都要追究,哪里追究得完。当然,我并不觉得该追究。别说所谓观点,各类期刊直接把文章拿去发,cnki一查。都很多。这个其实可以追究,但也麻烦。
比如,“智力的回归”这个概念,我最初发在腾讯大家上的,把身高回归的规律用在了智力上。我在网上搜索过,在我之前,没人这么说过。如今,十多年过去,已经成为常识了。那么,这是观点的传播还是洗稿?我能要求人人提到“智力回归”都提到我的名字吗?显然,文章不是论文,没办法这样要求。那么,不洗稿,观点能传播吗?
其实,腾讯的洗稿评议机制,也在我公开发表的文章之后。当时是六神磊磊指控另一个大号周冲洗稿,引发业内热议。我当时提出,洗稿不违法,所以只能用行业评议解决。我是这么写的:
洗稿乃至抄袭,大致上确定只需要两个初中生,5分钟,20块钱。但法律上确定,需要请两个博士后,5个月,200万。如果洗稿的维权成本从后者变为前者,维权就会变得简单。所以,只有通过贝叶斯后验的理念来进行判断,即通过观察到的信号来判断发出信号的本质。简单地说就是,如果一只鸟多次看起来像鸭子,多次听起来像鸭子,那么,它就是鸭子。
![]()
后来腾讯就有了洗稿评审,现在,我也不时能收到评议需求。不过,我当时提出的是对公号原创程度的标识,腾讯现在应该是直接删除。我提标注,是因为洗稿并不侵权,删除有法律风险。不过,腾讯可以基于用户协议删除。
这类例子,很多我也想不起了。
比如,最近想写一篇文章,核心观点就几个字“优质教育资源,是不可能增加的,因为拼教育资源是为了竞争,而不是多学知识。人们要的是排序,而不是绝对值。”这个观点,随着国家抹平内卷的效率,过个十来年也许也会成为常识。
但法律并不能,也不该保护“观点是我的”。因为传播必然伴随启发,传播和启发是同时发生的,而且,启发应该再次被传播。而且,这个过程,正是法律想要保护的。某种程度上,它也是作者本身想达到的目的。
我们追求的正是这种外部性。
天下文章一大抄,这话说的是一个一直存在的现象。这其实很难免。
太阳之下无新事,常识需要不断说,被别人重复,被自己重复。当然,我用自己之前的说理,我肯定会改改,不能完全一样,或者引入当时的具体事件。再比如某个2万字的报告,有人总结了,我拿过来,改一下就用。或者某个新闻,有人总结了,我改一下用。一般来说,我接到洗稿评议,文章只是洗一两段,不是核心部分,我不会给出洗稿的判断。
对于洗稿质疑,当然还没人质疑过我哈,我觉得是不需要回应的。因为我就是观点产出型的,洗稿的指控对我不会有多大伤害。这同样是基于贝叶斯后验的,要多次看起来像洗稿,才能构成对能力的质疑。
写这篇文章的时候,从洗稿想到AI训练的版权问题。这也是最近知识产权领域的争论点。现在有很多观点了,我补充一个更底层的。(写完了才发现,这本身就是一个关于观点传播和洗稿的辨析例子)
![]()
第一个问题,训练是不是对素材的商业性应用?
如果一个人看了一部电影,比如阿凡达,从中受到启发,创造了另一种外星人的形象。这个形象不侵权,完全不一样。那么,可以说他对阿凡达进行了商业性应用吗?
一本书,让一个人读了,这个人学到一个道理,一个句式,产生了一幅图像,得到一个灵感,应用到了另一个地方。
这就是所谓的“启发”。显然,这不构成对这本书、这部电影的商业应用。正如我前面所说,法律不可能限制“启发”——这正是知识产权保护想要达到的目标。
那么,就进到第二个问题:启发这个词,形容的是一种触类旁通的关系,是发散的、具有不确定性的智能上的因果关系。只有人才具有智能,所以,只有人才能受到启发。那么,机器,从训练到生成文本或图片,还是“启发”吗?
如果不是,反过来,则构成对素材的商业应用。某种程度上,就是另一种形式的洗稿。
那么,AI训练,从训练到生成新文本,是一种洗稿还是启发?
如果计算机具有智慧的某种特征,那么,就可以视为启发。现在说大模型已经有了涌现现象,应该视为一个智能体。我觉得更关键的是,涌现具有发散性、不确定性的特征。
大模型中有很多随机性。比如,temperature参数会直接改变输出token的概率,这个参数甚至可以从外部环境调用,以获得随机性。
openai的api中也用seed这个参数来改变生成策略的随机种子。
不同型号的GPU 之间的浮点数计算可能会略有差异,不能保证bit级别的一致性。这些差异,在巨大的参数累积下,刚开始生成的token是一样的,但是从某个 token 开始,后续的生成结果就不一样了。从这个角度,涌现,也有发散、不确定性的特征。
这些随机性,很多已经是不可还原的了。这种不可还原的发散和不确定性,可以认定类似人类智慧,所以,训练是被启发,而不是洗稿,那么,就不构成商业应用,就无需许可。
![]()
单纯从数量上说,资料浩如烟海,参数多数繁星,很难认定“素材——产出”的因果关系。而没有这种因果关系,当然不构成商业应用,所以,自然不需要特殊的许可。凡是公开的,都可以被合法地用来训练。
或者说,只要被人看到是合法的,无需许可,那么,被用来训练,就无需许可。
需要注意的是,有这样一种论证方式:人作为智能体,是有民事权利的。这是“启发”的法律前提。但显然,大模型没有这个资格,所以,它不能被“启发”。但是,这种论证只是循环论证。
这一段中,一些技术细节,是我查阅的,然后拿来用了,另一些技术细节我本来就知道(当然,也是从其他地方看到),但这都并不影响我这段论述的原创性。
这一段论述,遇到相关话题,我肯定是要用的,不然挺可惜的。如果有人洗稿了,我也会不高兴,但时间足够长,我也就无所谓了。总之,要求高没错,辩解也没错,都不必太在意。
刘 远 举
![]()
央视网、第一财经、光明日报、腾讯大家、南方周末、新京报、南方都市报、FT中文网、澎湃等特约作家,多家智库研究员。
关注时政、财经、科技话题,以深度、专业、理性的态度,去掘现象背后的事实。
中国科技自媒体50人
第35届中国新闻奖评论三等奖
第34届中国经济新闻奖评论二等奖
第28届北京新闻奖一等奖
2024年湖南新闻奖一等奖
腾讯大家年度作家奖
新浪最有价值专栏作家奖
红辣椒评论年度佳作奖
已开快捷转载,欢迎转载
已开过白名单的公众号,转载请遵循转载规则
您的关注是最好的支持!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.