网易首页 > 网易号 > 正文 申请入驻

OpenAI爬虫疯狂“偷”数据,7人团队十年心血网站一夜崩了,CEO:太离谱才察觉!

0
分享至

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

几天前,乌克兰一家专注于人体 3D 模型的网站 Trilegangers 突然崩了,这让整个团队以及老板都有些措手不及。起初,该公司 CEO Oleksandr Tomchuk 只是收到一则警报,进而发现公司的电子商务网站已完全瘫痪了。

一经排查,殊不知,该团队发现,罪魁祸首竟然是——OpenAI 此前研发的一款机器人 GPTbot。

7 人花了十余年时间构建的网站,差一点毁于一旦

据悉,Trilegangers 是一个销售 3D 扫描数据的网站,这家拥有七名员工的公司花了十多年时间,建立了所谓的网络上最大的“人体数字替身”数据库,即从真实人体模型扫描而来的 3D 图像文件。

Triplegangers 提供从手、头发、皮肤到完整身体模型的 3D 对象文件和照片,一应俱全。其处理的数据涵盖多个类别,如“脸部”、“全身”、“带姿势的全身”、“全身情侣”、“手部”、“手部雕像”等,网站展示的内容正是其业务核心所在。

具体来看,以“脸部”数据为例,这一类别中有 1509 人的数据,每个人注册了大约 20 种不同的面部表情。在其他类别中,每个产品至少有三张图像,因此总数据据说有数十万个点。

这一点也得到 CEO Oleksandr Tomchuk 的证实,其表示,“我们有超过 65000 种产品,每种产品都有一页内容介绍,每页至少有三张照片。”

Trilegangers 所做的业务就是面向 3D 艺术家、视频游戏开发者,以及任何需要数字化再现真实人类特征的人群销售这些数据。

然而,Oleksandr Tomchuk 称,不久前 OpenAI GPTBot 发送了“数万”个服务器请求,试图下载全部内容,数十万张照片及其详细描述。

这有一种,但凡 Trilegangers 有的,OpenAI 都要的感觉,可是这些内容实则为付费产品。“OpenAI 使用 600 个 IP 来抓取数据,我们仍在分析上周的日志,也许更多,”该团队在谈到机器人试图访问其网站的 IP 地址时说道。

他们的爬虫程序正在摧毁我们的网站!”Oleksandr Tomchuk 说,“这基本上是一次 DDoS 攻击。”

那么 GPTbot 究竟是什么?

不难回忆起来,GPTbot 是 OpenAI 在 2023 年 8 月推出的一款网络爬虫机器人,用于抓取互联网数据,为训练和改进大模型(如 ChatGPT)提供素材。

它会自动访问公开可用的网站,收集文本数据来增强模型能力。

OpenAI 此前表示,GPTBot 会严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。即遵循网站的 robots.txt 文件中明确标示的规则。如果网站配置了禁止 GPTBot 抓取的标签,它理论上会停止访问该网站。

而 robots.txt 是一个用于网站管理的文本文件,它告诉搜索引擎爬虫(如 Googlebot、Bingbot 或 GPTBot)哪些网页可以或不可以被抓取。这是一种被广泛接受的网络标准,称为机器人排除协议(Robots Exclusion Protocol, REP)。

简单来看,如果你不想让 GPTBot 访问你网站的任何内容,可以将以下代码添加到目录中 robots.txt 里面:

User-agent: GPTBot
Disallow: /

如果你想要允许访问网站上的某些内容(例如特定目录或文件),可以用以下代码对 robots.txt 进行以下更改:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

除此之外,OpenAI 还公布了 OpenAI 使用的爬虫 IP 地址,也可以根据 IP 地址来拒绝访问。

OpenAI 公开了以上这些方式,并声称会遵守规则,显得诚意满满。

然而,令人无奈的是,一切的前提是得正确配置好“robots.txt”文件,才可以尽可能地避免被爬虫。

这一次 Trilegangers 就落到了“robots.txt”的坑中。虽然其在官网“使用条款”的第 5 条行为准则中清清楚楚地写着:

  • 未经 TG 明确事先书面同意,不得使用任何机器人、爬虫、网站搜索/检索应用程序或其他手动或自动设备来检索、索引、抓取、挖掘数据或以其他方式收集网站内容,也不得复制或绕过网站的导航结构或展示方式。尽管有上述限制,在遵守我们网站根目录中 robots.txt 文件中发布的任何指示的前提下,TG 授予公共搜索引擎的运营者权限,允许其使用爬虫从我们的网站复制材料,但仅限于为创建这些材料的公开可用、可搜索索引的唯一目的(且仅限必要范围内),不得缓存或存档这些材料。TG 保留随时和不经通知撤销此权限的权利,无论是一般性撤销还是针对特定情况。

  • 未经 TG 许可,禁止执行以下行为:

    1. 将本网站上展示的任何内容或图像用于人工智能或机器学习(“AI/ML”)研究或研究;

    2. 提取、复制、分发或向任何第三方提供本网站展示的任何内容或图像,用于 AI/ML 算法的训练、测试或开发;

    3. 参与任何涉及利用本网站内容或图像的AI/ML相关活动,包括但不限于数据集编制、模式识别、神经网络训练或任何形式的计算分析。

任何试图在未经 TG 有效许可的情况下将本网站内容或图像用于 AI/ML 目的的行为,均被视为违反本网站条款及我们的供应条款与条件,可能导致法律诉讼,并寻求适用法律下的一切补救措施。

但如今看来,仅凭这一点的声明毫无作用,GPTBot 还是爬取到了其网站的内容,还让网站整个宕机了。

对此,据 Techcrunch 报道,此次 Trilegangers 并没有正确使用 robot.txt,其中的标签没有明确告诉 OpenAI 的机器人 GPTBot 不要爬取该网站内容。这就意味着 OpenAI 和其他公司就会认为他们可以随心所欲地抓取数据。

更令人气愤的是,即使 Trilegangers 告诉了 GPTBot 不要抓取自家网站的内容,谁能料到,OpenAI 还有 ChatGPT-User 和 OAI-SearchBot 机器人用来做爬虫工具。

还值得注意的是,即使更新了网站的 robots.txt ,也不要掉以轻心,因为 OpenAI 的系统可能需要大约 24 小时才能才能识别更新的 robot.txt 文件。

https://platform.openai.com/docs/bots

正所谓爬虫的工具千千万,企业有时根本防不胜防。

“如果爬取的数据少一点,或许都发现不了”

就像这一次,如果不是 OpenAI 的 GPTBot 爬取的数据过于庞大,也许 Trilegangers 可能还发现不了。Tomchuk 在接受外媒 Techcrunch 采访时表示,「如果爬虫更加“温和”地抓取,他可能永远都不会发现。」

“这令人害怕,因为这些公司似乎钻了一个漏洞,声称‘你可以通过更新带有我们标签的 robots.txt 文件选择退出抓取’,”Tomchuk 说,但这实际上把责任推给了网站所有者,让他们必须了解如何屏蔽这些爬虫。

更可怕的是,Tomchuk 称他们连 GPTBot 究竟是从何时开始抓取的都不知道,更不要说 OpenAI 具体抓取了哪些内容。

这也让 Tomchuk 有些担心,“我们的业务对权利要求非常严格,因为我们扫描的是实际的人体,按照欧洲的 GDPR 等法律,他们不能随便拿网络上的任何照片使用。”

事件发生后,Triplegangers 的网站不仅因 OpenAI 的爬虫被迫下线,CEO Tomchuk 还预计将收到一份因爬虫导致的高 CPU 消耗和大量下载活动而产生的高额 AWS 账单。

同时,Tomchuk 称他也没找到可以联系 OpenAI 的方法,也无法让他们删除这些素材。为此,Tomchuk 无奈之下选择用 Trilegangers 官方 Twitter 账号发了一条致 OpenAl、Microsoft、Meta、Google 和其他使用爬虫程序的公司的官方声明:

除用于搜索目的的页面索引外,严禁在我们的网站上使用爬虫程序。未经有效许可,产禁将我们网站上的任何公开内容用于 AI 或 ML 应用程序。

截至目前,Triplegangers 配置好了正确的 robots.txt 文件,并创建了一个 Cloudflare 账户,用于阻止 GPTBot 以及他发现的其他爬虫,例如 Barkrowler(一个 SEO 爬虫)和 Bytespider(TikTok 的爬虫)。

引发争议的数据爬取

Triplegangers 的经历引发了广泛关注,其公开此事后,不少其他网站运营者纷纷表示也曾遭遇类似情况。

@markerz:

我的其中一个网站曾被 Meta 的 AI 爬虫 Meta-ExternalAgent 完全摧毁。这个爬虫似乎有些“天真”,没有像 Google Bot 那样进行性能回退(performance back-off)。它不断地重复请求内容,直到我的服务器崩溃,然后短暂停止一分钟,再次发起更多请求。

我的解决方法是添加了一条 Cloudflare 规则,直接屏蔽该 User-Agent 的请求。我还为链接增加了更多 nofollow 规则,并更新了 robots.txt 文件,但这些规则仅仅是建议,某些爬虫似乎会忽略它们。Cloudflare 还有一个功能可以屏蔽已知的 AI 爬虫,甚至怀疑是 AI 爬虫的请求:https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/。尽管我不喜欢 Cloudflare 的集中化,但这个功能确实非常方便。

griomnib:

我从事网站开发已经数十年,同时也从事过爬取、索引和分析数百万个网站的工作。只需遵循一个黄金法则:永远不要以比你希望别人对待你的网站更激进的方式加载其他网站。

这并不难做到,但这些 AI 公司使用的爬虫既低效又令人厌恶。

作为一个网站所有者,这种行为让我觉得他们对网络的基本礼仪毫无尊重。而作为一名从事分布式数据采集的工程师,我更是被这些爬虫的糟糕和低效深深冒犯了。

至此,Tomchuk 也分享了他想把这一经历公开的原因,他希望其他小型在线企业了解,发现 AI 爬虫是否在抓取网站的版权内容的唯一方法就是主动检查日志。他并不是唯一一个受爬虫“侵害”的人,也绝非最后一个。

Tomchuk 警告道:“大多数网站甚至不知道自己被这些爬虫抓取了。现在我们不得不每天监控日志活动,以发现这些爬虫。”

https://gigazine.net/gsc_news/en/20250111-openai-bot-crushed-e-commerce-site/

https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

https://x.com/triplegangers/status/1877095361002852750

https://news.ycombinator.com/item?id=42660377

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大年初五返程!广东年轻人直言:这个年,过比上班还累!

大年初五返程!广东年轻人直言:这个年,过比上班还累!

生活魔术专家
2026-02-21 05:10:19
凯特王妃绝地反击!威廉弃白月光选王位,爱情在权力前不堪一击

凯特王妃绝地反击!威廉弃白月光选王位,爱情在权力前不堪一击

历史小胡
2026-02-20 16:19:15
看了《镖人》,才发现吴京最正确的决定,就是换掉女主选择陈丽君

看了《镖人》,才发现吴京最正确的决定,就是换掉女主选择陈丽君

断翼的鸟儿
2026-02-20 23:15:57
26.4万!丰田官宣:新车正式亮相

26.4万!丰田官宣:新车正式亮相

高科技爱好者
2026-02-20 22:58:44
宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

杨华评论
2026-02-20 02:11:06
早年的林青霞和第一任男友赵宁的一张留影,那时候她刚情窦初开。

早年的林青霞和第一任男友赵宁的一张留影,那时候她刚情窦初开。

陈意小可爱
2026-02-21 13:29:29
7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

刘姚尧的文字城堡
2026-02-21 10:12:45
下一个吃饼中锋?莫布利:我在学习哈登如何指挥内线

下一个吃饼中锋?莫布利:我在学习哈登如何指挥内线

大眼瞄世界
2026-02-20 15:40:32
俄外交部:日本出资为乌军采购的装备将成为俄军的合法目标

俄外交部:日本出资为乌军采购的装备将成为俄军的合法目标

俄罗斯卫星通讯社
2026-02-20 15:30:33
震惊,北京知名建筑装饰公司暴雷了!

震惊,北京知名建筑装饰公司暴雷了!

黯泉
2026-02-20 21:21:41
米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

海外网
2026-02-04 15:03:52
崔永熙+四外援齐亮相!广东男篮正式集结 杜锋朱芳雨发红包引关注

崔永熙+四外援齐亮相!广东男篮正式集结 杜锋朱芳雨发红包引关注

狼叔评论
2026-02-21 12:22:03
吴京又赌对了!《镖人》票房口碑井喷,越剧小花一出场引全场惊呼

吴京又赌对了!《镖人》票房口碑井喷,越剧小花一出场引全场惊呼

动物奇奇怪怪
2026-02-21 13:27:29
张艺谋新片带火深圳!有观众留“后遗症”:看见垃圾桶就想掏

张艺谋新片带火深圳!有观众留“后遗症”:看见垃圾桶就想掏

南方都市报
2026-02-21 11:52:41
评测:以色列武器工业公司Zion-15短管步枪 最理想的万能武器?

评测:以色列武器工业公司Zion-15短管步枪 最理想的万能武器?

hawk26讲武堂
2026-02-20 12:19:15
湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

极目新闻
2026-02-20 15:48:20
2026年人口大迁徙地图出炉,未来半数国人将涌入这五大核心圈

2026年人口大迁徙地图出炉,未来半数国人将涌入这五大核心圈

老特有话说
2026-02-20 12:34:15
中国打造重机枪,不小心犯一个低级错误,结果却意外造就世界之最

中国打造重机枪,不小心犯一个低级错误,结果却意外造就世界之最

墨兰史书
2026-02-08 16:55:05
日本,一个发达国家,为何把日子过成“全民还债”的困局?

日本,一个发达国家,为何把日子过成“全民还债”的困局?

包明说
2026-02-13 13:03:50
官方实锤!那艺娜被认定劣迹艺人,演出许可直接撤销

官方实锤!那艺娜被认定劣迹艺人,演出许可直接撤销

陈意小可爱
2026-02-21 10:51:17
2026-02-21 14:16:49
CSDN incentive-icons
CSDN
成就一亿技术人
26330文章数 242232关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

房产
本地
亲子
家居
数码

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

假期怎么玩才能不惹爸妈生气?

家居要闻

本真栖居 爱暖伴流年

数码要闻

苹果低价MacBook下月登场:首次搭载A18 Pro手机芯片!

无障碍浏览 进入关怀版