网易首页 > 网易科技 > 网易科技 > 正文

业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享

0
分享至

8月31日消息,随着人工智能技术的迅猛发展,曾经用于搜索引擎索引的网络爬虫现在被用于收集训练数据来开发人工智能模型。内容创作者意识到,他们的劳动成果被大科技公司免费使用来开发新的人工智能工具,爬虫协议已经无法解决这个问题。这可能会影响内容所有者在线分享内容的动力,从而从根本上改变互联网

以下为翻译内容:

20世纪90年代末,出现了一种名为爬虫协议(robots.txt)的简单代码,允许网站所有者告知搜索引擎的机器人爬虫哪些页面可以抓取,哪些页面不能抓取。如今,爬虫协议已成为业界普遍接受的非官方网络规则之一。

机器人爬虫的主要目的是索引信息,改善搜索引擎的搜索结果。谷歌、必应和其他搜索引擎都有爬虫程序,它们生成网络内容的索引信息,并提供给潜在的数十亿用户。这也是互联网蓬勃发展的基础,创作者们在网络上分享丰富信息,因为他们知道用户会访问他们的网站并浏览广告、订阅服务或购买商品。

然而,生成式人工智能和大语言模型正在从根本上迅速改变网络爬虫的任务。这些工具并没有为内容创作者提供支持,反而成为他们的敌人。

机器人喂饱了大科技公司

现在,网络爬虫收集在线信息,并生成大规模的数据集,这些数据集被富有的科技公司免费用于开发人工智能模型。比如,CCBot为最大的人工智能数据集之一Common Crawl提供数据;GPTbot则是向人工智能明星创企OpenAI提供数据。谷歌将自家的大语言模型的训练数据称为“无限集合”,但没有提及大部分数据来自Common Crawl的精简版C4。

这些公司开发的人工智能模型使用这些免费信息来学习如何回答用户的问题,这与为网站建立索引信息、让用户访问原始内容的既定模式相去甚远。

如果没有潜在的消费者,内容创作者就没有动力让网络爬虫继续收集免费数据。GPTbot已被亚马逊、爱彼迎、Quora和其他上千家网站屏蔽。对Common Crawl数据集的CCBot的屏蔽也越来越多。

“粗糙的工具”

阻止这些网络爬虫的方式并没有太大变化。网站所有者只能部署爬虫协议并屏蔽特定爬虫,但效果并不理想。

“这是件有点粗糙的工具,”Wordpress前高管、科技投资者、数字营销公司Yoast创始人约斯特·德·瓦尔克(Joost de Valk)说。“它没有法律依据,基本上是由谷歌维护的,尽管他们声称是与其他搜索引擎共同维护的。”

考虑到各大企业对高质量人工智能数据的巨大需求,爬虫协议也容易被操纵。例如,像OpenAI这样的公司只需更改其网络爬虫的名称,就可以绕过人们使用爬虫协议设置的禁止规则。

此外,由于爬虫协议是自愿遵守的,网络爬虫也可以简单地忽略指令并继续收集信息。像Brave等较新的搜索引擎的网络爬虫就不会受到规则的影响。

“网上的一切信息都被模型吸进了真空,”研究人类生成数据与人工智能之间关系的计算机科学教授尼克·文森特(Nick Vincent)说。“这背后发生了很多事情。在接下来的时间里,我们希望能以不同的方式评估这些模型。

创作者的回应

德·瓦尔克警告称,内容所有者和创作者可能已经太迟钝,无法理解允许这些网络爬虫免费获取他们的数据、不加区分地使用这些数据来开发人工智能模型的风险。

“现在,什么都不做意味着,‘我认可我的内容出现在世界上所有的人工智能和大语言模型中,’”德·瓦尔克说。“这是完全错误的。需要创建更好的爬虫协议,但搜索引擎和大型人工智能团队自己很难会去做这件事。”

一些大公司和网站最近做出了回应,其中一些是第一次部署爬虫协议。

检测人工智能生成内容的公司Originality.ai表示,截至8月22日,在1000个最受用户欢迎的网站中有70个使用爬虫协议屏蔽GPTBot。

Originality.ai还发现,在1000个最受欢迎的网站中,有62个屏蔽了Common Crawl的网络爬虫CCBot。随着人们对人工智能数据收集的意识日益增强,今年有越来越多的网站开始屏蔽Common Crawl。

然而,网站不能强制执行爬虫协议。任何爬虫都可以忽略该文件,继续收集网页上的数据,而网页所有者可能根本不知情。即使部署爬虫协议具有法律依据,其初衷与利用网络信息开发人工智能模型关系不大。

纽约大学技术法律与政策诊所主任杰森·舒尔茨(Jason Schultz)表示,"Robots.txt不太可能被视为禁止使用网站数据的法律。"这主要是为了表明人们不希望自己的网站被搜索引擎编入索引,而不是表示人们不希望自己的内容被用于训练机器学习和人工智能。

“这是一个雷区”

事实上,这种情况已经持续了多年。早在2018年,OpenAI就公布了首个GPT模型,并通过BookCorpus数据集进行训练。Common Crawl始于2008年,并于2011年通过亚马逊云服务公开了数据集。

尽管如今屏蔽GPTBot的网站越来越多,但对于那些担心自己的数据被用于训练人工智能模型的企业来说,Common Crawl的威胁更大。可以说,Common Crawl之于人工智能,就像谷歌之于互联网搜索。

非营利组织知识共享(Creative Commons)首席执行官凯瑟琳·斯蒂勒(Catherine Stihler)表示,

“这是一个雷区。我们几年前才更新了战略,现在我们处于一个不同的世界。”

知识共享始于2001年,是创作者和内容所有者用知识共享许可协议来替代严格版权,在网上使用并分享作品许可的一种方式。在共享许可协议的基础上,创作者和所有者保留他们的权利,并允许其他人访问内容并创作衍生作品。维基百科、Flickr、Stack Overflow等许多知名网站都是通过知识共享许可协议运作的。

知识共享组织在最新的五年战略中表示,在训练人工智能技术方面,开放内容的使用存在问题。知识共享组织希望使在线作品共享更加公平。

1600亿网页

通过CCBot爬取公开信息的Common Crawl拥有最大的数据存储库。自2011年以来,它已从1600亿个网页中抓取和保存信息,并持续增加。一般来说,Common Crawl每月抓取并保存大约30亿个网页的信息。

Common Crawl称,这项事业是一个“开放数据”项目,旨在让任何人“打开自己的好奇心,分析世界,追求卓越的想法”。

然而,现在的情况完全不同。大量Common Crawl收集的数据被大科技公司用于开发专有模型。即使一家大型科技公司目前没有从人工智能产品中获利,未来也有可能这样做。

一些大型科技公司已停止披露训练数据来源。然而,许多强大的人工智能模型都是使用Common Crawl开发的。它帮助谷歌开发了Bard,帮助Meta训练Llama,帮助OpenAI创建ChatGPT。

Common Crawl还向The Pile提供数据,后者还拥有更多从其他爬虫抓取的数据集。The Pile已广泛用于人工智能项目,包括Llama和微软与英伟达共同开发的MT-NLG。

从今年6月份开始,The Pile下载量最大的数据之一是受版权保护的漫画书,包括阿奇漫画、蝙蝠侠、X战警、星球大战和超人系列的作品。这些作品都是DC漫画和漫威创作的,现在仍受版权保护。最近有报道称,The Pile中还存储了大量受版权保护的书籍。

纽约大学的舒尔茨表示,爬虫的目的和使用方式完全不同。很难监管或要求它们以特定方式使用数据。

对于The Pile来说,虽然它承认数据中包含受版权保护的材料,但在创立数据集的技术文章中声称,“处理和分发他人拥有的数据也可能违反版权法”的说法几乎没有人会认同。

此外,The Pile还辩称,尽管数据集中存储了相对未经改变的作品,但根据合理使用原则,对这些材料的使用应该是变革性的。The Pile还承认,在训练大语言模型时,需要使用完整的版权内容以产生最佳效果。

网络爬虫和人工智能项目中所谓的合理使用观点已经受到了质疑。作家、视觉艺术家甚至源代码开发人员起诉OpenAI、微软和Meta等公司,因为他们的原创作品在未经许可的情况下被用于训练模型,而他们并没有从中受益。

微软前高管、风投公司安德森·霍洛维茨(Andreessen Horowitz)合伙人史蒂文·辛诺夫斯基(Steven Sinofsky)最近在社交媒体上写道,即便将东西放到互联网上,也不能不经同意就免费、无限制地将某人的劳动成果用于商业用途。

没有解决办法

“我们现在正在努力解决所有这些问题,”知识共享组织首席执行官斯蒂勒表示,有很多问题需要解决:补偿、授权、信任。在人工智能时代,我们还没有答案。

德·瓦尔克表示,由于知识共享许可协议可以促进版权的流通性、允许自己拥有的作品在互联网上使用,可以作为开发人工智能模型的一种潜在许可模式。

斯蒂勒对此并不确定。她说,涉及到人工智能时,也许并没有单一的解决方案。即使是更灵活的通用协议,也可能行不通。你如何向整个互联网授权?

斯蒂勒说:“与我交谈过的每一位律师都说,许可并不能解决问题。”

她经常与作者、人工智能行业高管等利益相关者讨论这个问题。斯蒂勒今年早些时候会见了OpenAI的代表,并表示公司正在讨论如何奖励创作者。

但她补充说,目前还不清楚人工智能时代的公共空间将会是什么样子。

鉴于网络爬虫已经为大型科技公司收集了大量数据,加上内容创作者根本无法掌控,互联网可能会发生巨大变化。

如果发布信息意味着将数据免费提供给与自己竞争的人工智能模型,那么这种活动可能会停止。

已经有迹象表明,访问问答网站Stack Overflow来回答问题的程序员越来越少,因为他们之前的付出被用来训练人工智能模型,现在这些模型可以自动回答许多问题。

斯蒂勒表示,所有在线创作内容的未来可能很快就会像现在的流媒体一样,内容被锁在订阅服务中,成本越来越高。

“如果我们不小心,最终就会导致公共空间关闭,”斯蒂勒说。“将会有更多有围墙的花园、更多人们无法访问的东西。这不是未来知识和创造力的成功模式。”(辰辰)

延伸阅读
相关推荐
热点推荐
驾车冲撞利物浦队夺冠庆祝球迷!英国54岁男子被判21年6个月

驾车冲撞利物浦队夺冠庆祝球迷!英国54岁男子被判21年6个月

全景体育V
2025-12-16 21:43:50
华为Mate80价格突崩,这降价是疯了吗?

华为Mate80价格突崩,这降价是疯了吗?

3C毒物
2025-12-17 00:16:03
2月17号才过年就算了,2026年春节直接把人整懵了!

2月17号才过年就算了,2026年春节直接把人整懵了!

刺头体育
2025-12-14 16:52:39
林庭谦33分丢扳平三分天津惜败北控 廖三宁20+7沈梓捷15+10

林庭谦33分丢扳平三分天津惜败北控 廖三宁20+7沈梓捷15+10

醉卧浮生
2025-12-16 21:34:52
日方复述涉台湾问题条款时刻意回避重要表述,外交部:日方仍在要害问题上挤牙膏、埋钉子

日方复述涉台湾问题条款时刻意回避重要表述,外交部:日方仍在要害问题上挤牙膏、埋钉子

环球网资讯
2025-12-16 15:58:39
争议!巴萨神锋造62球却无缘FIFA最佳阵 妻子连发4条动态炮轰不公

争议!巴萨神锋造62球却无缘FIFA最佳阵 妻子连发4条动态炮轰不公

我爱英超
2025-12-17 03:15:30
河南美女“大晨”去世,年仅28岁,日常开奥迪,一口能喝三两白酒

河南美女“大晨”去世,年仅28岁,日常开奥迪,一口能喝三两白酒

宝哥精彩赛事
2025-12-16 08:40:55
中国女首富,以7800亿超越华为成为国内最大民企,她哪来那么多钱

中国女首富,以7800亿超越华为成为国内最大民企,她哪来那么多钱

牛牛叨史
2025-12-14 17:07:17
看来打到日本痛处了!制裁岩崎茂之后,日内阁长紧急召开记者会诉

看来打到日本痛处了!制裁岩崎茂之后,日内阁长紧急召开记者会诉

青青子衿
2025-12-16 11:31:46
收入分配制度或迎重大改革,城乡居民增收计划将有明确目标

收入分配制度或迎重大改革,城乡居民增收计划将有明确目标

第一财经资讯
2025-12-16 21:39:58
FIFA官宣!2025年度最佳球员将诞生:38球17助连夺5冠!实至名归

FIFA官宣!2025年度最佳球员将诞生:38球17助连夺5冠!实至名归

小火箭爱体育
2025-12-16 15:04:39
-4℃!雨夹雪!江苏天气全乱了!

-4℃!雨夹雪!江苏天气全乱了!

无锡eTV全媒体
2025-12-16 21:25:34
岩崎茂被中方采取反制措施:他被称为“最突出的亲美派”,系日本防务重量级人物,3月被台湾聘为顾问

岩崎茂被中方采取反制措施:他被称为“最突出的亲美派”,系日本防务重量级人物,3月被台湾聘为顾问

极目新闻
2025-12-15 12:01:10
为什么抑郁率最低的是广西?评论区笑翻天了

为什么抑郁率最低的是广西?评论区笑翻天了

另子维爱读史
2025-12-16 21:25:55
大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,真卖不动了

大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,真卖不动了

小莜读史
2025-10-25 22:25:22
泰军争议高地缴获大国造GAM-102LR反坦克导弹,柬军弃械溃逃

泰军争议高地缴获大国造GAM-102LR反坦克导弹,柬军弃械溃逃

老马拉车莫少装
2025-12-14 23:29:14
连爆大冷,中国斯诺克又创历史了:32强决出26席中国13席刷新纪录

连爆大冷,中国斯诺克又创历史了:32强决出26席中国13席刷新纪录

求球不落谛
2025-12-17 01:52:37
14亿奖金!卡车司机领70万,团队当场哭成一片,霉霉这波操作太疯

14亿奖金!卡车司机领70万,团队当场哭成一片,霉霉这波操作太疯

凡知
2025-12-15 18:43:28
中国驻英国使馆发表声明:强烈谴责英方干预香港司法

中国驻英国使馆发表声明:强烈谴责英方干预香港司法

环球网资讯
2025-12-15 19:45:57
丁伟换人太荒谬!广东7人满分2人拉胯,杜锋盛赞2小将是未来核心

丁伟换人太荒谬!广东7人满分2人拉胯,杜锋盛赞2小将是未来核心

老吴说体育
2025-12-16 22:22:11
2025-12-17 07:27:00

科技要闻

360:玉红恶意诋毁周鸿祎 将追究其法律责任

头条要闻

美国向乌下最后通牒:现在不接受 以后没那么慷慨了

头条要闻

美国向乌下最后通牒:现在不接受 以后没那么慷慨了

体育要闻

杨瀚森18+10首次两双 关键攻防统治G联赛

娱乐要闻

《双轨》遭网友举报,称剧情三观不正

财经要闻

浙金中心暴雷始末:祥源控股设计的骗局?

汽车要闻

打造全域安全2.0,吉利的新“长征”

态度原创

健康
教育
艺术
数码
军事航空

这些新疗法,让化疗不再那么痛苦

教育要闻

【预告】12月19日 | 2025年秋季第10场课堂教学数字化评价项目省级教研活动

艺术要闻

中国古人的九大风雅事,你知道几件?

数码要闻

60亿加码核心产线 TCL华星的产能卡位与技术突围

军事要闻

画面公开 菲方人员挥舞长刀挑衅中国海警

无障碍浏览 进入关怀版
×