本系列第一篇文章已经介绍了AIGC的训练模型运行流程,接下来的文章将分别从训练模型的输入端和输出端对AIGC可能涉及的法律风险进行分析。
一、未经授权获取现有版权作品
根据《中华人民共和国著作权法》(下称“《著作权法》”)的规定,未经著作权人许可,复制、发行、表演、放映、广播、汇编、通过信息网络向公众传播其作品的(本法另有规定的除外)属于侵权行为。而复制的方式包含以数字化方式将作品制作一份或多份。在AI模型的输入端,为了训练AI模型,需要向模型中输入大量数据以供其学习,其中涉及在未经许可的情况下使用他人的数字化作品或者将物理载体作品进行数字化并使用。这个过程中,如果输入的数据为受著作权法保护的数据,则可能涉及侵权。
那么供AI模型学习的数据,是否可以构成合理使用而免于侵权风险呢?从我国司法实践对《著作权法》中合理使用的适用来看,对是否构成合理使用的判断要考虑以下四个因素,一是使用作品的目的和性质。结合训练模型来看,使用大量数据进行模型训练一般是具有商业目的的,通过训练使模型能够根据指令生成特定内容,从而提供生成式人工智能服务。二是被使用作品的性质。一般而言,作品的独创性越高,不被认定为合理使用的可能越大。若训练过程中使用的他人的文学作品、绘画、音乐等受著作权保护的作品,则可能不符合合理使用的标准。 三是所使用部分的质量及其在整个作品中的比例。 在AI模型训练场景下一般是使用整个作品进行学习的,故从使用的质量及比例这一因素判断,不符合合理使用的标准。 四是使用行为对作品现实和潜在市场及价值的影响。 以Stable Diffusion模型为例,该模型本质上是将现有图像(包括受版权保护的图像)复制并粘贴到其庞大的训练材料数据库中,提取训练数据中图像的元素,然后重新混合这些作品以生成更多同类作品。 这使得原作者投入大量时间创作的作品或者形成的个人风格能够被AI产品随意复制,而当大量AIGC充斥市场,必将对原作者的市场造成永久性损害。 综上,目前在训练模型的输入阶段,将供AI模型学习的数据认定为合理使用难度较大。
二、爬虫技术的不正当竞争
爬虫简单讲即模拟网络用户在互联网进行大量信息、数据的采集、整理,是一种支撑数据经济的手段。但是爬虫技术本身以及使用爬虫技术需要在合法的范围内。如果非法爬取数据权利方的数据,可能需要承担相应的法律责任。例如,爬取方未遵守数据权利方设置的Robots协议或者其他应当遵守的义务,或者爬取方从技术上突破网站或App的Robots协议以及设置的爬虫检测、加固Web站点等限制爬虫的访问权限。若以上述方式爬取数据的目的是取代数据权利方部分产品或服务,则可能被认为是不正当竞争。
三、AI模型泄露商业秘密的风险
商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。其中“不为公众所知悉”是商业秘密的秘密性的体现。如果在AI模型中输入或误输入涉及商业秘密,且相关信息已经被用于模型训练且难以自模型中删除,是否会丧失秘密性?《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》中规定,若所属领域的相关人员从其他公开渠道可以获得该信息的,则应认定为该信息为公众所知悉。因此,若涉及商业秘密的信息已被用于训练AI模型,则意味着不特定的公众可能通过输入相关要求获悉相关信息,应认为是为公众所知悉。
此外,输入端可能出现泄露商业秘密风险的情形还有企业员工在使用AI服务产品时,为了使得到的结果更为明确,可能会无意中违反公司的保密制度,将公司涉及商业秘密的信息输入到AI中。为了防止此种风险的发生,建议公司对其员工,特别是负有保密义务的员工,进行提醒或要求,禁止其将商业秘密信息输入AI中。
综上,本文分析了AI模型在输入端涉及的法律风险,主要是在AI模型训练阶段可能侵犯现有作品的复制权,爬虫技术本身及其不当使用可能会被认定为不正当竞争,以及AI模型导致商业秘密泄露的情形。接下来的文章将对AI模型输入端的法律风险进行介绍。
01 东数西算系列
02数据合规系列
03医疗数据系列
04互联网版权系列
05 AIGC系列
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.