![]()
做代理IP生意的人,最懂什么叫"道高一尺魔高一丈"。IPRoyal创始人Karolis Toleikis最近摊牌了:以前花半年建的反爬系统,现在被AI用几行提示词拆解。他的原话很直白——「Parsing is the new necessity」,解析成了最后的防线。
这事得从爬虫和反爬的军备竞赛说起。以前封IP、上验证码、埋陷阱,能挡住九成对手。现在大模型直接读网页源码,像人类一样"看懂"结构,传统手段集体失效。Toleikis举了个例子:某电商网站改了DOM结构三次,AI爬虫三天内就自适应了,而人类工程师还在写正则表达式。
更狠的是成本。他算过账:雇一个反爬工程师年薪15万刀,租AI算力解析页面,成本降到原来的三十分之一。这不是降维打击,是直接把桌子掀了。
Toleikis的应对策略也很有意思——不再试图"防住"AI,而是让数据本身变得"AI难吃"。比如故意埋逻辑矛盾、动态生成无意义节点,让解析结果不可靠。换句话说,既然挡不住读取,就让读取了也没用。
有个细节很能说明问题:他们测试了主流大模型的网页解析能力,GPT-4o对复杂表格的识别准确率是94%,Claude 3.5是91%,而两年前最好的工具只有67%。进步曲线比摩尔定律还陡。
Toleikis最后提到,已经有客户开始反向操作——用AI生成"毒数据"喂给竞争对手的爬虫。这场战争从"谁能爬"变成了"谁爬到的是真的"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.