网易首页 > 网易号 > 正文 申请入驻

爬虫受限 AI训练数据供求双方对抗白热化⼁AI数据合规

0
分享至

21世纪经济报道记者 王俊 实习生 韩佳序 北京报道

AI科技公司与数据持有方的对抗正在白热化。

近日,人工智能专家吴恩达在网站The Batch上提及了一篇有关数据许可的研究,研究发现C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,开放数据获取变得愈发困难。

随着本轮生成式人工智能的快速发展,为给大模型“喂”数据,科技公司从各个渠道搜刮数据,直观反应就是过去一两年间,网络爬虫激增。这带来了数据对价、版权、用户隐私等问题,对OpenAI、Anthropic这两家AI行业最瞩目公司的谴责和质疑不绝于耳。

业内普遍认可的爬虫协议(Robots协议)逐渐失效。君子协议一旦被打破,行业必将上演新的博弈戏码,此次研究提到的开放数据获取困难,正是爬虫与反爬虫不断对抗升级、AI科技公司与数据持有方缠斗的最好注脚。

AI数据荒雪上加霜?

训练数据是构建和优化 AI 模型的基石,是大模型成长的基础和驱动力。高质量数据是训练性能优越AI模型的关键,但当前却面临着“高质量数据告急”的情况。

此次研究成果,让本来就有数据荒危机的AI行业雪上加霜。

研究发现,从GPTBot出现(2023年中期)后,在robots.txt层面进行完全限制的网站数量激增。

根据模型预测,无论是robots.txt还是ToS,这种限制数增长的趋势都会持续下去。

OpenAI、Anthropic和Common Crawl的受限占比位列前三,都达到了80%以上,但网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

研究人员担心的是,这不仅会影响商用AI模型的训练,也会对学术界和非营利机构的研究造成阻碍。

君子协议下 互联网数据掘金

开放的互联网生态为何变得谨慎起来,又为何对AI科技公司关上窗户?这要从爬虫说起。

爬虫是指在互联网上爬取各网站、平台数据信息内容的程序。按照编写好的规则,能自动为使用者爬取互联网上的数据信息内容。它们通常使用自动化数据抓取技术来自动访问网站,并收集、解析和存储网站上的信息。

伴随着互联网发展,爬虫技术广泛应用于搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等多个领域。

不过,爬虫存在灰色地带,爬虫软件既可以帮助使用者便捷地大范围获取网页数据,也常常因涉嫌侵犯平台方数据资产与用户个人隐私而遭到质疑。司法实践中,最著名的案件便是职业社交平台LinkedIn诉数据分析公司HiQ案,后者通过爬取前者数据并进行处理后将分析结果出售给相关企业获利,双方关于第三方是否有权爬取网站信息展开了长达五年的诉讼拉锯。

尽管爬虫存在争议,但是在“数据为王”时代,其为深度挖掘数据提供了巨大便利性,行业也形成一定共识基础:

一是爬虫协议,二是爬虫带来的商业价值以及形成的商业生态。

爬虫协议(Robots协议)是业内的君子协议。协议会将搜索引擎抓取网站内容的范围进行约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这能够保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

在爬虫协议的约束下,逐渐搭建以搜索引擎为主要场景的商业生态:让搜索引擎抓取你的网站,同时你会获得搜索引擎的流量回报。

Medium 创始人托尼·斯塔布宾(Tony Stubblebine)说:“谷歌是我们最重要的爬虫。谷歌下载 Medium 的所有网页,作为交换,我们获得了大量的流量,这是双赢。每个人都这么认为,这就是谷歌与整个互联网达成的协议,在向其他网站传输流量的同时,他们还在搜索结果中出售广告。”

也就是说,互联网时代爬虫虽然伴随着争议,但很多场景下能够构建起一个合理的空间,数据持有方与使用者之间一定程度能形成良性运行的机制。

这在上述研究中也有体现:网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

数据荒背后 AI公司被反噬

然而,人工智能时代,科技公司们打碎了上述两个前提。

一是爬虫协议被不断突破。例如今年7月,AI独角兽Anthropic公司利用其爬虫工具ClaudeBot,无视网站许可协议,疯狂地访问抓取美国电子商务和指南网站iFixit的数据,导致后者服务器被严重占满。

面对iFixit公司CEO的公开指责,Anthropic公司的回应完全回避自己的爬虫工具“未经允许”的问题。

爬与被爬不断升级,AI公司不断升级爬虫工具,甚至利用人工智能爬取数据来“喂”给人工智能。例如基于人工智能的Python网络爬虫库Scrapegraph-ai,可以利用大语言模型(LLM)和直接图逻辑来实现“流水线式爬虫”。

面对来势汹汹的爬虫工具,有些数据持有者选择在数据中“投毒”,并敞开“大门”将“有毒数据”送给它们。所谓“有毒数据”,是指在数据中故意放置异常数据。这种数据库会扰乱模型训练。

双方激烈“攻防”的背后,反映出整个行业利益分配的不平衡,上述提及的第二个前提破裂。与之前被搜索网站爬虫可获得流量不同,数据持有者在AI公司的爬虫行为中不仅无法得到任何回报,反而还要接受“喂养”出来的大模型取代自身的风险。因此,数据持有者高筑“数据墙”也实属保全自身的无奈之举。

2023年8月OpenAI 发布了爬虫工具GPTBot,称在注重版权的基础上,使用透明的方式收集网页信息。尽管释放了友好信号,但旋即遭到《纽约时报》等封禁。

说到底,这是一门AI公司一本万利、数据持有方难以获得收益的生意。

各种网站正在快速在收紧他们的许可协议,是数据持有方的反扑,也是AI公司疯狂“攻城略地”时忽视数据持有者利益的反噬。

有评论称阻止AI爬虫可能是短期的胜利,长远的灾难。但是没有合理甚至可见的利益分配,数据持有方很难有动力开放。如何寻求双方都满意的解决方案,似乎仍有一段距离要走。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高考出分后,他发帖求助:中流985还是再战一年?

高考出分后,他发帖求助:中流985还是再战一年?

娱圈观察员
2026-06-24 00:11:16
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

替补席看球
2026-06-25 08:47:39
巴蒂斯图塔一句话说透了:梅西和马拉多纳,根本没法比

巴蒂斯图塔一句话说透了:梅西和马拉多纳,根本没法比

许三岁
2026-06-25 12:15:13
“跳水王子”熊倪:退役后从政当高官,职位比刘国梁高很多

“跳水王子”熊倪:退役后从政当高官,职位比刘国梁高很多

陈莓特色体育解说
2026-06-23 17:58:17
给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

给韩国队算分!世界杯小组第3最新形势:6队同分,比利时无缘前8

球场没跑道
2026-06-25 12:07:52
世界杯3场小组赛独进4球!安切洛蒂让情场失意的维尼修斯球场得意

世界杯3场小组赛独进4球!安切洛蒂让情场失意的维尼修斯球场得意

红星新闻
2026-06-25 09:02:55
东莞回应“清溪水出现黑臭”:初判系倾倒污染物导致

东莞回应“清溪水出现黑臭”:初判系倾倒污染物导致

澎湃新闻
2026-06-25 13:59:10
伊朗突然变天!最高领袖成摆设,革命卫队全面接管,三分天下崩了

伊朗突然变天!最高领袖成摆设,革命卫队全面接管,三分天下崩了

像诗一样的姑娘
2026-06-25 10:23:29
蒂尔尼:我们没踢出应有水平,现在只能希望其他球队帮忙了

蒂尔尼:我们没踢出应有水平,现在只能希望其他球队帮忙了

懂球帝
2026-06-25 11:20:31
在乌克兰最后通牒仅剩三天之际,卢卡申科将离开白俄罗斯

在乌克兰最后通牒仅剩三天之际,卢卡申科将离开白俄罗斯

山河路口
2026-06-24 19:41:46
如今的35岁,是被团灭的年纪

如今的35岁,是被团灭的年纪

微微热评
2026-06-25 08:40:24
抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

抓特务票房惨淡让冯小刚低头:时代早变了,没有人必须为谁买单

十为先生
2026-06-22 15:46:44
2026高考河北第一名在衡中?710分有两个?豆包回复了,恭喜

2026高考河北第一名在衡中?710分有两个?豆包回复了,恭喜

王姐懒人家常菜
2026-06-25 12:50:43
新疆塔吉克族:千年保持白人血统,为何从不与汉人通婚?

新疆塔吉克族:千年保持白人血统,为何从不与汉人通婚?

老达子
2026-06-20 06:40:08
个税飙升12%,收入只增4.2%,反差信号背后的促消费难点|商业微史记

个税飙升12%,收入只增4.2%,反差信号背后的促消费难点|商业微史记

界面新闻
2026-06-24 14:09:58
吃着中国的稀土,却往死里卡中国的脖子!对台积电,该下狠手了

吃着中国的稀土,却往死里卡中国的脖子!对台积电,该下狠手了

流史岁月
2026-06-24 21:10:04
几十万只蚊子“以命代言”,这广告直接拿下戛纳大奖!

几十万只蚊子“以命代言”,这广告直接拿下戛纳大奖!

最黑科技
2026-06-25 01:11:37
恕我直言,汉语是阻碍中国人客观对待食物的最大障碍

恕我直言,汉语是阻碍中国人客观对待食物的最大障碍

食味艺文志
2026-06-24 21:16:01
五个未接来电以为家里出事,结果是皇马来了!库库:脏活我来干

五个未接来电以为家里出事,结果是皇马来了!库库:脏活我来干

圣西罗的太阳
2026-06-25 12:53:48
2026-06-25 14:27:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
255224文章数 744520关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

盖茨第三段婚外情对象披露 正面回应引诱未成年人卖淫

头条要闻

盖茨第三段婚外情对象披露 正面回应引诱未成年人卖淫

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

白玉兰颁奖预测,杨幂胜算大吗?

财经要闻

财报炸裂!美光让空头闭嘴

汽车要闻

少个轮子也能跑?方程豹豹8闪充版云辇P Ultra让新手越野不心慌

态度原创

健康
艺术
教育
手机
时尚

神经内科专家破解中风十大谣言

艺术要闻

2026年第三届全国大学生美术作品展 油画选(一)

教育要闻

数字推理,1,2,3,7,16,( )

手机要闻

谷歌安卓17测试新特性:手电筒外,锁屏限制访问所有快速设置控件

最高级的夏季配色,来了!

无障碍浏览 进入关怀版