网易首页 > 网易号 > 正文 申请入驻

互联网上人人遵守的君子协定,正在被AI撕得粉碎!

0
分享至

1993年,互联网还很小。

我每天早上都会收到一个叫做《what’s new on the web》的邮件,上面会列出所有新出现的网站。

没错,是所有的新网站。

我常常一边喝咖啡,一边浏览这些网站,通常10点钟之前就能看完。


无聊的时候,我开始自学Perl,尝试写网络爬虫,这些爬虫是有用的,比如可以用来做网站目录,统计文档数,检查死链,网页评价大小等等。

在测试的时候,我选择了一个极为愚蠢的起始URL:一个讲网络爬虫的知识的网站。

这个网站运行在一家非常小的公司的服务器上,而且只有一条14.4K的专线。(别觉得14.4K很小,我们公司200人,也就租了一个64K的专线)。

我的爬虫无意间进行了一次拒绝服务攻击(DoS),把那个网站搞垮了。

负责那个网站的人叫马丁(Martijn Koster) ,他很生气,立刻要求我停止那些疯狂的请求。

马丁不是一般人,他发明了世界上第一个Web搜索引擎AliWeb。


当他意识到网络爬虫可能泛滥的时候,他发明了一套标准的流程:“机器人排除协议”(Robots Exclusion Protocol)。

当你的网络机器人访问一个新网站时,需要先去找一个叫 robots.txt 的文件,解析它,然后避开里面列出的目录或文件。

例如,如果robots.txt长这个样子:

User-agent: googlebot

Disallow: /private/

它的意思是对于googlebot这个网络爬虫,不允许抓取/private这个目录下的内容。

我觉得我可能写了第一个遵守 robots.txt 协议的爬虫,但可以肯定的是,我是那个逼得它被发明出来的蠢蛋。

0 1

君子协定,神奇运行30年

上面的故事来自查尔斯·斯特罗斯 (Charles Stross) 的自述,非常生动地讲述了robots.txt被发明的过程。

它并不是一个委员会设计出来的规范,而是早期的互联网用户为了解决问题被迫发明的方法。

马丁只是把这个办法发到了WWW-Talk的邮件列表中,然后成员们讨论robots.txt的基本语言和结构,最后达成一致,所有人都开始支持robots.txt。

它不像TCP/IP,你不支持就无法联网,它是一个君子协定,是否遵守完全看网络爬虫编写者的意愿。

这有点儿像在你敞开的房间门口立上一块牌子:禁止入内。


网络爬虫/机器人看到了,就真的不进入这个房间了,不管这个房间里有多少宝贝。

让人惊奇的是,在长达30年的时间内,robots.txt运转良好。

为什么它能活下来?

在早期,原因只有一个:不守规矩的机器人,会被全网封杀

在那个小圈子里,“流氓机器人”的IP会被拉黑,域名会被公开点名,这是致命的名誉风险。

0 2

最遵守robots.txt的公司赢了

时间很快来到90年代末,互联网迅猛扩张,海量的网站一个上午绝对是看不完了。

那些藏在世界各地的网站,不通过搜索引擎,无论如何也是找不到的。

于是,搜索引擎和网站之间就robots.txt达成了完美的默契。

网站允许Google爬虫抓取自己的网页,这样它们就可能展示到搜索结果中,给自己带来巨大的曝光流量。

而Google也严格遵循robots.txt的规定,将流量导致其他网站,同时在搜索结果中投放广告。

这是一次极为成功的价值交换:你让我爬数据,我给你流量。


虽然robots.txt此时已经成为事实标准,但世界那么大,总有不遵守robots.txt的公司。

尤其是那些信息聚合网站,无视robots.txt的约定,从别人的网站抓取数据(例如新闻,产品信息),聚合后放到自己的网站上。

例如美国的Bidder's Edge(简称BE),它建立了一个拍卖信息的聚合网站,专门从包括eBay在内的各个拍卖网站去收集信息,这样BE的用户就可以轻松搜索互联网上的拍卖信息,而无需访问单独的拍卖网站。

这eBay肯定不能忍,由于robots.txt是个君子协定,它只好去限制BE爬虫的IP地址,但是BE通过代理服务器,绕过了IP的限制。

eBay没办法,最后一纸诉状把BE告上了法庭,2000年5月,法院以非法入侵为由,禁止BE以任何自动手段抓取eBay服务器的数据。

0 3

君子协议被撕毁

2017年,一个致力于保存互联网的网站“互联网档案馆”,干了一件震动圈子的事情:不再遵守robots.txt。

互联网档案馆的理由很直接:robots.txt是为了“搜索”设计的,我的目标是保存所有网页的快照,保存人类的互联网文明,所以没必要遵守。

不过这件事儿没有引起太大波澜,因为互联网档案馆是个非盈利的机构,它即使不遵守robots.txt,把所有数据都爬了下来,但依然免费开放,不会拿这些数据去盈利。

但是对于AI公司来说,一切都不一样了。

如果你开了一家AI公司,严格遵守robots.txt,而你的竞争对手通过换UA/IP,偷偷地多抓取一些,结果会如何呢?

你公司的模型由于训练数据少,自然比不上竞争对手。

用户会因为你的道德规范高而支持你吗?不会,他们肯定都跑到竞争对手那里去了。

“如果我守规矩,而对手不守,我就输了,所以我也不能遵守”。


抓数据其实也没啥,要命的是流量无法回流到网站了:

(1)网站内容被吸干,流量消失。

(2)AI直接给出答案,用户再也不会去原来的网站。

(3)内容的创作者,丧失署名权,没有分成。

所有的网站都感受到脊背发凉:AI不是给我带来流量的,而是来取代我的。

所以,一定要屏蔽掉那些AI公司的爬虫!

2023 年,Originality.AI统计发现,在访问量最高的 1000 个网站中,有 306 个在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot,85 个屏蔽了谷歌的 Google-Extended。

BBC 和 《 纽约时报》 等新闻网站普遍禁止访问 GPTBot。2023 年,博客平台 Medium 宣布将禁止所有人工智能网络爬虫访问。

OpenAI也摆出了高姿态,说要遵守robots.txt,自家爬虫的名字就叫GPTBot,它还发布并推广了一个页面,“贴心”地教人们如何在robots.txt中屏蔽它。

但是,这一切发生在“强大的底层模型已经训练完成之后”。

换句话说:“你的模型已经吃饱了,你才开始讲礼貌?” 这谁受得了?

robots.txt 是建立在“善意 + 搜索回流”之上的制度,而 AI 打破了这三点。

0 4

尾声

robots的结构性缺陷,在AI时代彻底暴露。

2025 年,非营利组织 RSL Collective 宣布推出Really Simple Licensing(RSL),对robots.txt进行了一次升级,允许网站发布者在 robots.txt 中明确设置 AI 爬虫的使用条款,例如:

AI-Commercial: license-required

RSL 标志着 robots.txt 从“爬虫礼貌手册”升级成了“产权声明”,它不阻止AI,而是想让AI回到一个可以谈条件,讲规则的世界。

那些巨头们会不会遵守RSL呢? 让我们拭目以待吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新时代的觉醒

新时代的觉醒

西楼饮月
2026-02-15 22:50:22
泽连斯基亮明选举底线:90%乌人反对,停战才投票

泽连斯基亮明选举底线:90%乌人反对,停战才投票

老马拉车莫少装
2026-02-16 01:07:49
后续再曝:或宋轶“想要”,白敬亭“不给”引评论区热议!

后续再曝:或宋轶“想要”,白敬亭“不给”引评论区热议!

默默有话说
2026-02-15 21:36:42
“爱结不结!”有儿子的家庭集体“罢工”,这婚不结也罢!

“爱结不结!”有儿子的家庭集体“罢工”,这婚不结也罢!

素十三儿
2026-02-15 19:25:09
大众速腾再降价!让利优惠高达6.5万,网友:够诚意

大众速腾再降价!让利优惠高达6.5万,网友:够诚意

汽车网评
2026-02-15 21:13:22
自由式滑雪女子大跳台预赛:谷爱凌170.75分,锁定决赛名额

自由式滑雪女子大跳台预赛:谷爱凌170.75分,锁定决赛名额

懂球帝
2026-02-15 04:50:08
只剩10天!俄罗斯撤侨准时开始,中方按兵不动,美国偷偷断供石油

只剩10天!俄罗斯撤侨准时开始,中方按兵不动,美国偷偷断供石油

小小科普员
2026-02-14 15:07:25
石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

笑谈历史阿晡
2026-01-14 11:26:05
36岁龙洋辞别央视!新身份曝光,人生彻底转向

36岁龙洋辞别央视!新身份曝光,人生彻底转向

草莓解说体育
2026-02-10 00:27:58
全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

李橑在北漂
2026-01-17 12:38:29
杜建英邻居爆料!孩子不是私生子,但孩子长得不像他们,难以相信

杜建英邻居爆料!孩子不是私生子,但孩子长得不像他们,难以相信

深析古今
2025-07-16 20:04:47
救救美国的中产吧,他们都快要饿死了!

救救美国的中产吧,他们都快要饿死了!

走读新生
2026-01-27 21:49:52
马刺队文班亚马表示,当湖人队勒布朗·詹姆斯退役时,他不会哭

马刺队文班亚马表示,当湖人队勒布朗·詹姆斯退役时,他不会哭

好火子
2026-02-15 05:53:07
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
王菲春晚唱《你我经历的一刻》 歌曲原唱乐队毕业于北大

王菲春晚唱《你我经历的一刻》 歌曲原唱乐队毕业于北大

陈意小可爱
2026-02-15 20:10:18
女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

女子深夜打车回家,发现司机绕路她准备报警,司机:你仔细看后面

千秋文化
2026-02-12 20:06:26
17.88 万元起,红旗 HS6 PHEV 版上市, 全面对标方程豹钛 7

17.88 万元起,红旗 HS6 PHEV 版上市, 全面对标方程豹钛 7

爱范儿
2025-12-17 22:11:10
解放军19个兵团,没参加抗美援朝的兵团在干嘛,司令员去哪了?

解放军19个兵团,没参加抗美援朝的兵团在干嘛,司令员去哪了?

小蒨喜欢解说
2026-02-16 02:59:47
中央一号文件公布!2026农村大调整,农民需提前准备,盯好3件事

中央一号文件公布!2026农村大调整,农民需提前准备,盯好3件事

万物知识圈
2026-02-15 07:29:52
扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

头狼追球
2026-02-15 07:08:08
2026-02-16 04:52:49
码农翻身 incentive-icons
码农翻身
有趣且硬核的技术文章
227文章数 622关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

数码
本地
亲子
公开课
军事航空

数码要闻

盲测显示:音频发烧友无法分辨铜线、香蕉与湿泥传输的音频信号

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

从小“吃零食”和“不吃零食”的孩子,离了父母的严管,差距拉大

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版