把2.5万张照片交给AI自动分类,听起来很美好。实际跑完一遍,我想聊聊哪里靠谱、哪里翻车。
实验配置:DGX Spark工作站 + CLIP(OpenAI的图像理解模型)+ Qwen2-VL(阿里开源的视觉语言模型)。流程分三步:iCloud同步到Windows电脑,再传到DGX,最后让CLIP分类、VLM验货。
![]()
先说结论:整体一致率84.5%。人像检测最稳——7195张照片只漏了59张,准确率99.2%。但文档和截图几乎对半错,这个类别基本不可用。
传输环节先卡了壳。WiFi下速度0.5MB/s,预估6天。切到有线局域网、修复主机名解析后,飙到80MB/s,快了160倍。这一步就耗掉大半天。
CLIP的工作方式很直接:给一张图,同时问"这是猫?风景?截图?",返回每个标签的相似度分数。我设了8个类别,每个配多组英文描述,取最高分。低于0.5置信度的扔进"不确定"桶人工复核。批量跑完约20分钟。
但人工抽查2.5万张不现实,于是让Qwen2-VL当裁判——逐张问"这是截图吗?是/否"。最初16秒一张,全量要5天。瓶颈是图像尺寸,压缩后降到约3小时跑完。
最后坦白:中途放弃了,全量倒进Amazon Photos。五年Prime会员,刚知道有无限照片存储。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.