每月50美元的OCR接口被干掉了。有人用谷歌Gemma 4的4B视觉模型在本地跑通,成本归零。
关键是预处理 trick。不是直接丢图给模型,而是先压缩到特定分辨率、转灰度、去噪——把冗余信息砍掉,小模型也能稳定输出结构化文本。
![]()
脚本已开源:纯Python,依赖Transformers,单卡可跑。实测发票、截图、扫描件准确率接近商业API,延迟在可接受范围。
这对中小开发者意味着:敏感数据不用出本地,订阅费省下来,定制空间反而更大。视觉小模型的实用拐点,可能比预期来得早。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.