AI版权战,正在从“谁训练了模型”,追问到“谁帮助模型完成了训练”。
如果说OpenAI是站在台前的模型开发者,那么微软这一次被推到聚光灯下,问的是另一个更深的问题,当一家企业提供超级算力、定制系统、商业入口和产品分发能力时,它还能不能只说自己是“中立的基础设施提供者”?
2026年6月25日,《纽约时报》在针对OpenAI和微软的版权诉讼中申请提交第三次修订诉状。新的诉状将矛头进一步指向微软,指控其并非只是被动受益于OpenAI使用版权内容训练AI模型,而是通过构建定制化超级计算系统,主动诱导、帮助并促成了大规模版权侵权。
按照相关报道,这套超级计算系统包含超过285,000个CPU核心和10,000个GPU。《纽约时报》试图借此说明,微软不是普通云服务商,而是在OpenAI大模型训练能力形成过程中,提供了关键基础设施和技术条件。
几乎与此同时,代表近400家美国地方报纸的出版方也对微软和OpenAI提起诉讼,指控二者未经许可抓取、复制大量新闻文章,用于训练ChatGPT、Copilot等AI产品。原告还主张,OpenAI使用“Dragnet”“Newspaper”等文本提取工具时,故意剥离文章中的作者署名、版权声明和使用条款,可能违反美国《数字千年版权法》(以下简称DMCA)有关版权管理信息保护的规定。
这两组案件释放出一个非常清晰的信号,AI版权诉讼已经不再只盯着模型公司,而是开始沿着技术链条、商业链条和责任链条向外扩散。
一、这次被追问是“谁促成了侵权”
过去讨论AI训练版权争议,核心问题通常集中在OpenAI这类模型开发者身上。训练数据是否包含受版权保护作品?训练行为是否构成复制?模型输出是否替代原作品?能否适用合理使用?
但《纽约时报》此次修改诉状的重点,是把微软放进一个更主动的位置。
原告试图证明,微软并不是一个远离训练过程的投资方,也不是单纯出售算力的云服务提供者,而是通过深度定制的超级计算系统,为OpenAI的大规模训练提供了关键条件。
这就把案件焦点从“直接侵权”进一步推向“帮助侵权”“诱导侵权”或者“共同侵权”的边界。
换句话说,法院未来可能需要回答的问题是,如果一个主体没有直接抓取文章,没有直接训练模型,但它明知或应知相关训练依赖大规模版权内容,仍然提供专门设计的算力、系统和商业支持,它是否可能成为AI侵权责任链条的一部分?
标题中“共犯”的真正含义可以理解为,AI侵权不能永远只追到模型开发者为止。
二、微软的麻烦在于绑定了OpenAI的产业链
微软和OpenAI的关系,并不是普通供应商和客户关系。
微软既是OpenAI的重要投资方,也是其云计算和算力基础设施提供方;同时,微软还把OpenAI模型能力整合进Copilot、Bing、Office、Azure等产品和服务之中。
这使微软很难把自己描述成一个完全中立、完全外部、完全不知道下游用途的基础设施提供者。
如果只是通用云服务,责任边界相对清楚。云厂商提供服务器,客户自己上传数据、训练模型、部署应用,云厂商通常不会因为客户使用云资源实施侵权而当然承担责任。
但如果基础设施是为特定模型训练高度定制的,如果服务方深度参与训练架构设计,如果它知道训练行为需要海量文本内容,如果它又从下游AI产品中持续获得商业利益,那么“中立工具”的抗辩就会变得困难。
这正是《纽约时报》诉状的攻击方向。
它不是简单说微软“有钱”“有技术”“有合作”,而是试图证明微软在OpenAI训练能力形成过程中具有实质性贡献。
三、新闻业已经进入集团化反击
如果说《纽约时报》的诉讼代表头部媒体的强势维权,那么近400家地方报纸的集体诉讼,则代表新闻行业更广泛的生存焦虑。
地方报纸不是技术巨头,也不是流量平台。它们的价值来自长期采编、地方调查、社区报道、事实核查和公共记录维护。
这些内容如果被AI系统无偿抓取、复制、训练,再通过ChatGPT、Copilot等产品重新包装输出,地方媒体面对的就不仅是版权损失,而是入口损失、流量损失、订阅损失和广告损失。
也就是说,AI并不只是“学习”了新闻内容,还可能改变用户获取新闻的路径。
过去用户需要访问报纸网站、阅读原文、产生点击、订阅和广告收入;现在用户可能直接向AI提问,得到摘要、答案和整理后的信息。内容生产者投入成本,AI产品拿走入口,平台获得商业价值,新闻机构却被挤出分配链条。
这正是内容方最不能接受的地方。
AI训练数据争议,本质上不是“技术创新与传统版权”的抽象冲突,而是一个非常具体的利益分配问题。
谁生产内容?
谁承担成本?
谁拿走数据?
谁获得估值?
谁被市场替代?
四、DMCA指控的杀伤力,在于它指向“撕掉版权标签”
这批地方报纸诉讼中,DMCA相关主张值得特别关注。原告并不只是说自己的文章被复制,还主张OpenAI在使用文本提取工具处理内容时,移除了文章中的作者署名、版权声明和使用条款等版权管理信息。
这个指控如果成立,意义会超过普通版权侵权。
因为普通侵权关注的是“你有没有拿走作品”;DMCA版权管理信息规则关注的则是“你是不是在拿走作品之前,先把权利标签撕掉”。
在AI训练场景中,这一点尤其敏感。
大规模数据处理通常要经过抓取、清洗、去重、切片、标注、向量化等环节。很多工程系统会把作者、来源、版权声明、网站条款、许可限制视为“噪声”,在清洗过程中一并删除。
但从版权合规角度看,这些信息恰恰不是噪声,而是权利边界。AI训练不是把数据洗得越干净越好。有些“脏信息”,恰恰是权利人的保护边界。
五、合理使用仍是主战场,但它不再是一张万能牌
微软和OpenAI很可能继续主张合理使用。
这也是美国AI版权诉讼中最核心的抗辩之一:大模型训练不是为了复制原文,而是为了学习语言规律和知识关联;训练具有转换性;如果禁止使用公开互联网内容训练AI,将阻碍技术创新。
这个抗辩仍有空间。
但内容方也在强化反击逻辑:新闻作品具有高投入、高时效和高市场价值;AI产品可能生成摘要、替代阅读、截流访问;如果训练数据包含付费墙内容、访问限制内容,甚至存在版权管理信息被剥离的情况,那么“合理使用”的正当性就会被削弱。
AI版权案正在从价值争论,变成证据工程。
知产力判断
这组案件对中国企业的提醒非常直接。
今天很多企业不会自己从零训练大模型,而是与模型公司、云厂商、数据供应商、行业客户共同开发垂直AI应用。越是合作链条复杂,越容易出现责任错位。
技术团队关心模型效果,业务团队关心上线速度,法务团队如果只在合同末端补一条“对方保证数据合法”,远远不够。
企业至少要提前压实五件事。
第一,数据来源要可解释。
第二,授权范围要写清楚。
第三,版权信息要保留。
第四,技术过程要留痕。
第五,合作责任要切开。
AI合规不是产品上线前的包装动作,而是数据进入系统前的基础工程。
未来的AI竞争,不只比模型参数,也比数据来源;不只比算力规模,也比权利链条;不只比产品速度,也比合规底座。
AI可以训练世界,但不能把别人的内容当成无主燃料。谁把内容当燃料,谁就要准备回答,这把火,是谁点的?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.