去年谷歌关掉了一个叫「appWriteSearch」的搜索子域名,团队以为这事翻篇了。结果最近有人发现,这个坟头草三丈高的地址还在被AI爬虫疯狂访问,服务器日志里全是OpenAI和Anthropic的Bot痕迹。
事情诡异在哪?这个子域早就404了,但爬虫们像闻到血腥味的鲨鱼,照样每天来撞门。有工程师扒了日志后吐槽:「我们关的是服务,不是爬虫的记忆力。」换句话说,AI训练数据的饥渴程度,连尸体都不放过。
更讽刺的是,谷歌自己的爬虫规范写得明明白白:Dead links should be respected。但自家产品被刨坟时,规则成了摆设。其他公司也好不到哪去——OpenAI的GPTBot去年被曝无视robots.txt,Anthropic的Claude爬虫则被站长们集体拉黑过。
现在这块废弃子域成了观察窗口:AI公司到底在搜什么?有人猜测是抓取历史快照补全训练语料,也有人认为是链接推荐算法的遗留权重在作祟。谷歌内部至今没给说法,但服务器账单还在跑。
最扎心的反馈来自原团队一名成员:「我们以为按下Delete键就结束了,没想到只是换了一种方式被消费。」
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.