做机器学习的人有个幻觉:只要自动化够聪明,标注这种脏活就能交给机器。谷歌2016年推AutoML时,整个行业都在欢呼,仿佛数据民工终于要下岗了。
真相是,标注时间一点没省,只是吵架对象换了。以前团队吵"这个框画得对不对",现在吵"模型标错的要不要人工复审"。吵的内容变了,分贝没变。
一位在Waymo待了四年的工程师说得很直白:「我们80%的会议不是在讨论模型架构,是在争论边界框的模糊地带。」自动驾驶里一片落叶和一滩水渍的区分,算法自信满满,人类看完直摇头。
自动标注的真正价值不是替代人工,而是把最枯燥的重复劳动筛掉。但筛完之后,剩下的全是硬骨头——那些模型"有点拿不准"的样本,恰恰是最关键的训练燃料。换句话说,AutoML把标注从体力劳动升级成了判断力的较量。
现在主流做法是"人机回环":机器先跑一遍,人类只审边缘案例。表面看效率提升了,实际上对标注员的要求更高了。以前画框就行,现在得懂模型为什么犹豫。
有个细节很有意思:某自动驾驶团队发现,让资深工程师亲自标100张困难样本,比让初级员工标1000张普通样本更能提升模型表现。成本账算下来,老板沉默了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.