花了半天写的爬虫脚本,跑不到十分钟,突然弹出一个人机验证。换了代理IP,加了随机延迟,结果reCAPTCHA v3直接给了一个0.1的评分——机器人无疑。
这不是你写得不够好,是现在的检测系统已经能精准识别Playwright和Puppeteer的自动化特征。
但昨天,一个叫CloakBrowser的项目在GitHub Trending冲到了第二,一天涨了1300多颗星。
它做的事很直接:
把Chromium从C++底层改了。
不是JS注入,不是配置层伪装,是直接在源码层面打补丁——一共49多项指纹补丁,覆盖Canvas、WebGL、音频、字体、GPU、屏幕属性、WebRTC、网络时序、自动化信号移除等维度。
补丁直接编译进二进制文件。
检测系统看到它,会认为这是一个正常的人类浏览器。
有人会问:这和普通浏览器伪装有什么区别?
区别很大。
Playwright的stealth插件也好,Puppeteer的隐身模式也好,都是在应用层做伪装——JS改一改navigator属性,加几个plugin,伪造一下WebGL渲染结果。
这些手段,现在的检测系统早就能识别了。
CloakBrowser不一样。它的补丁是编译进Chromium二进制文件里的,在浏览器内核层面就把指纹藏好了。
官方验证结果:30+检测站点全通过,reCAPTCHA v3得分0.9(人类正常水平是0.7~0.9)。
Cloudflare Turnstile、FingerprintJS、BrowserScan——全部绕过去了。
迁移成本几乎为零。
这是我觉得这个项目最狠的地方。
CloakBrowser完全兼容Playwright和Puppeteer的原生API,只需要改一行导入代码,原来的业务代码一行都不用动。
比如你原来写的是:
from playwright.sync_api import sync_playwright改成:
from cloakbrowser.sync_api import sync_playwright剩下的,一行都不用改。
它还支持行为模拟。
开启humanize=True之后,鼠标点击会变成贝塞尔曲线移动,键盘输入会变成逐字输入,滚动会变成真实加速/减速模式。
不只是"指纹"像人,连"操作行为"也像人。
我去看了下它的GitHub页:
总Star 5,900+,今天一天涨了1,300多颗星。
最新版本v0.3.26,对应Chromium 146.0.7680.177.4,4月28日刚发布。
支持Linux x86_64/arm64、macOS arm64/x86_64、Windows x86_64,还有官方Docker镜像,开箱即用。
除了爬虫,它还官方适配了browser-use、Crawl4AI、LangChain等20+自动化/AI框架。
但这里我要说一句实话。
这个工具很强,但也不是万能的。
有些网站的反爬策略不止看浏览器指纹,还会看你的访问频率、点击轨迹、甚至鼠标移动的微抖动。
CloakBrowser能帮你过指纹检测,但访问策略还是要你自己把控。
不过对于大部分被Cloudflare拦到崩溃的爬虫工程师来说,这已经够了。
这个项目现在5,900颗星,按照今天的增长速度,我觉得一周之内会破万。
等到那时候,你可能会听到身边有人说"这个上周我就知道了"。
那种感觉,懂的都懂。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.