一个开发者最近开源了个小工具,能在浏览器里实时判断你有没有戴眼镜。不是什么云端API,也不需要上传照片——摄像头画面直接进模型,推理结果立刻出来。整个流程跑下来,平均延迟只有27毫秒。
这个项目叫FrameFind。作者最初只是想试试浏览器本地跑计算机视觉能有多快,结果做出了一个让自己都意外的速度。
![]()
核心技术栈很精简:ONNX Runtime Web负责推理,MediaPipe的FaceMesh提取面部关键点,可选WebGPU加速,不支持时自动降级。模型本身只有6.2MB,第一次加载后能被浏览器缓存,回头再打开几乎是秒启动。
真正让速度起飞的,是一个反直觉的裁剪策略。作者没有让模型处理完整画面,而是用FaceMesh landmarks定位眼睛区域,只把112x112像素的小块送进模型。ROI(感兴趣区域)缩小后,计算量断崖式下跌,帧率却稳住了。
完整流水线长这样:FaceMesh定位 → 眼部区域裁剪 → 张量归一化 → ONNX推理 → 时序平滑。最后一步 smoothing 是必须的,因为单帧预测会抖动,尤其遇到光线变化或面部遮挡时,连续几帧的结果需要加权平均才能稳定输出。
作者还封装了一个React hook,意图很明显:让前端开发者能直接拖进UI,不用管底层管线。另外配了个Node.js版本做服务端图片处理,但浏览器端才是主战场。
这个项目的真正野心不在"眼镜检测"这个功能本身。作者想验证的是:小型专用视觉模型,能不能让浏览器里的实时交互变得更实用?
传统做法是把视频帧发到服务器,或者调用重量级云API。FrameFind走了一条相反的路——计算全部留在客户端。代价是模型必须够小、够专,好处也直观:零网络延迟、零隐私泄露风险、零服务器成本。
6.2MB的体积,27毫秒的推理速度,这两个数字放在一起,说明浏览器本地跑轻量CV模型已经跨过"能用"的门槛,正在逼近"好用"。
项目已开源,Demo和代码链接在作者主页。如果你在做需要实时视觉反馈的Web应用,这个流水线值得参考。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.