网易首页 > 网易号 > 正文 申请入驻

互联网上人人遵守的君子协定,正在被AI撕得粉碎!

0
分享至

1993年,互联网还很小。

我每天早上都会收到一个叫做《what’s new on the web》的邮件,上面会列出所有新出现的网站。

没错,是所有的新网站。

我常常一边喝咖啡,一边浏览这些网站,通常10点钟之前就能看完。


无聊的时候,我开始自学Perl,尝试写网络爬虫,这些爬虫是有用的,比如可以用来做网站目录,统计文档数,检查死链,网页评价大小等等。

在测试的时候,我选择了一个极为愚蠢的起始URL:一个讲网络爬虫的知识的网站。

这个网站运行在一家非常小的公司的服务器上,而且只有一条14.4K的专线。(别觉得14.4K很小,我们公司200人,也就租了一个64K的专线)。

我的爬虫无意间进行了一次拒绝服务攻击(DoS),把那个网站搞垮了。

负责那个网站的人叫马丁(Martijn Koster) ,他很生气,立刻要求我停止那些疯狂的请求。

马丁不是一般人,他发明了世界上第一个Web搜索引擎AliWeb。


当他意识到网络爬虫可能泛滥的时候,他发明了一套标准的流程:“机器人排除协议”(Robots Exclusion Protocol)。

当你的网络机器人访问一个新网站时,需要先去找一个叫 robots.txt 的文件,解析它,然后避开里面列出的目录或文件。

例如,如果robots.txt长这个样子:

User-agent: googlebot

Disallow: /private/

它的意思是对于googlebot这个网络爬虫,不允许抓取/private这个目录下的内容。

我觉得我可能写了第一个遵守 robots.txt 协议的爬虫,但可以肯定的是,我是那个逼得它被发明出来的蠢蛋。

0 1

君子协定,神奇运行30年

上面的故事来自查尔斯·斯特罗斯 (Charles Stross) 的自述,非常生动地讲述了robots.txt被发明的过程。

它并不是一个委员会设计出来的规范,而是早期的互联网用户为了解决问题被迫发明的方法。

马丁只是把这个办法发到了WWW-Talk的邮件列表中,然后成员们讨论robots.txt的基本语言和结构,最后达成一致,所有人都开始支持robots.txt。

它不像TCP/IP,你不支持就无法联网,它是一个君子协定,是否遵守完全看网络爬虫编写者的意愿。

这有点儿像在你敞开的房间门口立上一块牌子:禁止入内。


网络爬虫/机器人看到了,就真的不进入这个房间了,不管这个房间里有多少宝贝。

让人惊奇的是,在长达30年的时间内,robots.txt运转良好。

为什么它能活下来?

在早期,原因只有一个:不守规矩的机器人,会被全网封杀

在那个小圈子里,“流氓机器人”的IP会被拉黑,域名会被公开点名,这是致命的名誉风险。

0 2

最遵守robots.txt的公司赢了

时间很快来到90年代末,互联网迅猛扩张,海量的网站一个上午绝对是看不完了。

那些藏在世界各地的网站,不通过搜索引擎,无论如何也是找不到的。

于是,搜索引擎和网站之间就robots.txt达成了完美的默契。

网站允许Google爬虫抓取自己的网页,这样它们就可能展示到搜索结果中,给自己带来巨大的曝光流量。

而Google也严格遵循robots.txt的规定,将流量导致其他网站,同时在搜索结果中投放广告。

这是一次极为成功的价值交换:你让我爬数据,我给你流量。


虽然robots.txt此时已经成为事实标准,但世界那么大,总有不遵守robots.txt的公司。

尤其是那些信息聚合网站,无视robots.txt的约定,从别人的网站抓取数据(例如新闻,产品信息),聚合后放到自己的网站上。

例如美国的Bidder's Edge(简称BE),它建立了一个拍卖信息的聚合网站,专门从包括eBay在内的各个拍卖网站去收集信息,这样BE的用户就可以轻松搜索互联网上的拍卖信息,而无需访问单独的拍卖网站。

这eBay肯定不能忍,由于robots.txt是个君子协定,它只好去限制BE爬虫的IP地址,但是BE通过代理服务器,绕过了IP的限制。

eBay没办法,最后一纸诉状把BE告上了法庭,2000年5月,法院以非法入侵为由,禁止BE以任何自动手段抓取eBay服务器的数据。

0 3

君子协议被撕毁

2017年,一个致力于保存互联网的网站“互联网档案馆”,干了一件震动圈子的事情:不再遵守robots.txt。

互联网档案馆的理由很直接:robots.txt是为了“搜索”设计的,我的目标是保存所有网页的快照,保存人类的互联网文明,所以没必要遵守。

不过这件事儿没有引起太大波澜,因为互联网档案馆是个非盈利的机构,它即使不遵守robots.txt,把所有数据都爬了下来,但依然免费开放,不会拿这些数据去盈利。

但是对于AI公司来说,一切都不一样了。

如果你开了一家AI公司,严格遵守robots.txt,而你的竞争对手通过换UA/IP,偷偷地多抓取一些,结果会如何呢?

你公司的模型由于训练数据少,自然比不上竞争对手。

用户会因为你的道德规范高而支持你吗?不会,他们肯定都跑到竞争对手那里去了。

“如果我守规矩,而对手不守,我就输了,所以我也不能遵守”。


抓数据其实也没啥,要命的是流量无法回流到网站了:

(1)网站内容被吸干,流量消失。

(2)AI直接给出答案,用户再也不会去原来的网站。

(3)内容的创作者,丧失署名权,没有分成。

所有的网站都感受到脊背发凉:AI不是给我带来流量的,而是来取代我的。

所以,一定要屏蔽掉那些AI公司的爬虫!

2023 年,Originality.AI统计发现,在访问量最高的 1000 个网站中,有 306 个在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot,85 个屏蔽了谷歌的 Google-Extended。

BBC 和 《 纽约时报》 等新闻网站普遍禁止访问 GPTBot。2023 年,博客平台 Medium 宣布将禁止所有人工智能网络爬虫访问。

OpenAI也摆出了高姿态,说要遵守robots.txt,自家爬虫的名字就叫GPTBot,它还发布并推广了一个页面,“贴心”地教人们如何在robots.txt中屏蔽它。

但是,这一切发生在“强大的底层模型已经训练完成之后”。

换句话说:“你的模型已经吃饱了,你才开始讲礼貌?” 这谁受得了?

robots.txt 是建立在“善意 + 搜索回流”之上的制度,而 AI 打破了这三点。

0 4

尾声

robots的结构性缺陷,在AI时代彻底暴露。

2025 年,非营利组织 RSL Collective 宣布推出Really Simple Licensing(RSL),对robots.txt进行了一次升级,允许网站发布者在 robots.txt 中明确设置 AI 爬虫的使用条款,例如:

AI-Commercial: license-required

RSL 标志着 robots.txt 从“爬虫礼貌手册”升级成了“产权声明”,它不阻止AI,而是想让AI回到一个可以谈条件,讲规则的世界。

那些巨头们会不会遵守RSL呢? 让我们拭目以待吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克大师赛落幕!诞生4个赢家3个输家!威尔逊、丁俊晖位列其中

斯诺克大师赛落幕!诞生4个赢家3个输家!威尔逊、丁俊晖位列其中

球场没跑道
2026-01-19 06:41:46
“19岁江西小伙叶文斌失联柬埔寨”最新进展:已确认下落且人身安全

“19岁江西小伙叶文斌失联柬埔寨”最新进展:已确认下落且人身安全

潇湘晨报
2026-01-18 22:39:53
填满数据栏,杨瀚森半场7分30秒2中1得2分1板1助1断1帽0失误

填满数据栏,杨瀚森半场7分30秒2中1得2分1板1助1断1帽0失误

懂球帝
2026-01-19 11:44:02
包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

潇湘晨报
2026-01-19 10:53:12
田朴珺送书给段永平教他赚钱!王石那个捂脸的动作,胜过千言万语

田朴珺送书给段永平教他赚钱!王石那个捂脸的动作,胜过千言万语

火山诗话
2026-01-19 06:54:12
南非宣布进入“国家灾难状态”

南非宣布进入“国家灾难状态”

财联社
2026-01-19 01:50:47
1956年,毛主席视察无线电厂时,错把写着“毛”的工件,当成礼物

1956年,毛主席视察无线电厂时,错把写着“毛”的工件,当成礼物

简史档案馆
2026-01-18 11:05:03
西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

极目新闻
2026-01-18 21:02:37
惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

新民晚报
2026-01-19 10:46:42
U23国足进4强仅一夜,收到1坏消息!越南媒体:我们2大优势进决赛

U23国足进4强仅一夜,收到1坏消息!越南媒体:我们2大优势进决赛

侃球熊弟
2026-01-18 11:54:48
2026央视春晚首次彩排明星全名单出炉,网友:咋还有“春晚混子”

2026央视春晚首次彩排明星全名单出炉,网友:咋还有“春晚混子”

梨花黛娱
2026-01-17 14:56:19
国际乒联终身主席怒了!樊振东打不打奥运会,应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会,应该我们自己说了算

淡淡稻花香s
2026-01-19 01:05:31
震惊!耶鲁大学已清除了所有支持共和党的教授

震惊!耶鲁大学已清除了所有支持共和党的教授

大洛杉矶LA
2026-01-19 07:09:47
又一网红餐厅倒闭,高端餐饮竟然被路边摊干“黄”了,到底为啥?

又一网红餐厅倒闭,高端餐饮竟然被路边摊干“黄”了,到底为啥?

青眼财经
2026-01-18 13:49:08
“我被人在大脑中植入芯片!”一封离奇举报信,牵出18年前一桩案子

“我被人在大脑中植入芯片!”一封离奇举报信,牵出18年前一桩案子

都市快报橙柿互动
2026-01-18 22:21:08
特朗普掀起“关税风暴”!格陵兰岛让美欧关系恶化进入新阶段

特朗普掀起“关税风暴”!格陵兰岛让美欧关系恶化进入新阶段

上观新闻
2026-01-18 20:57:07
欧洲派兵,特朗普怒了

欧洲派兵,特朗普怒了

环球时报国际
2026-01-18 19:50:51
贾国龙最新发言,又更新了一条朋友圈:预制菜和我为什么站出来?

贾国龙最新发言,又更新了一条朋友圈:预制菜和我为什么站出来?

陈语丝
2026-01-19 06:47:55
董路:越南没强到那个份上+被沙特摁着打 国足若输只会输在2点上

董路:越南没强到那个份上+被沙特摁着打 国足若输只会输在2点上

风过乡
2026-01-19 10:19:20
经纪人公布梁小龙死因,离世前几小时状态已不好,发病后撑7小时

经纪人公布梁小龙死因,离世前几小时状态已不好,发病后撑7小时

古希腊掌管月桂的神
2026-01-19 10:22:41
2026-01-19 12:16:49
码农翻身 incentive-icons
码农翻身
有趣且硬核的技术文章
219文章数 611关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

《狮子王》导演在家中去世,终年76岁

财经要闻

GDP增长5%!统计局正在解读

汽车要闻

2026款福特烈马上市 售价29.98-39.98万元

态度原创

教育
本地
家居
健康
房产

教育要闻

加州百年艺术名校将于2027年关闭,范德堡大学接管旧金山校区!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

隽永之章 清雅无尘

血常规3项异常,是身体警报!

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

无障碍浏览 进入关怀版