网易首页 > 网易号 > 正文 申请入驻

谷歌把3亿标注数据砍到300张,模型精度反而涨了11%

0
分享至

ImageNet用了1400万张图才撑起现代计算机视觉。但医院里的罕见病影像只有47例,卫星拍到的南海某岛礁全年无云图像仅23张,工厂质检的缺陷样本占比不到0.3%。

当学术界还在卷谁用了更多算力和数据时,真实世界早已把"数据充足"的假设撕得粉碎。这 gap 有多大?斯坦福医学院2022年的一项统计显示,超过60%的AI影像项目因数据不足卡在实验室阶段,从未见过临床病人。

数据稀缺的三种面孔

稀缺不是单一模样。小样本学习(Few-Shot Learning)处理的是绝对数量少——100张图训练一个分类器;不平衡学习(Imbalanced Learning)面对的是相对稀缺——99%正常样本淹没1%关键异常;噪声学习(Noisy Learning)则要在标签错误率高达40%的数据里找出规律。

这三种困境很少单独出现。医疗影像里,罕见病本身样本少(小样本),且健康人扫描远多于患者(不平衡),而专家标注分歧又制造了大量噪声标签。工业质检更极端:某汽车轴承厂的表面缺陷图像,三年积累仅217张,其中31张被两位工程师标记为"不确定"。

问题从来不是"数据不够",而是"不够的数据里还混着杂质"。

传统解法简单粗暴:加数据。OpenAI的CLIP用了4亿对图文数据,Stable Diffusion的LAION-5B包含58亿张图。但这条路在封闭场景走不通——卫星图像受轨道周期限制,工业缺陷等故障发生,病人隐私让数据共享变成法律雷区。

从"喂饱"到"教聪明"

新范式正在转向:不再追求数据量,而是提升数据利用效率。核心思路分三条线展开。

第一条线是数据增强的进化。传统增强是旋转、裁剪、调色,属于"机械扩充"。现在的生成式增强用扩散模型(Diffusion Model)合成逼真样本。2023年MIT团队的一项研究显示,在皮肤病变分类任务中,用扩散模型生成合成图像补充训练,小样本场景下的AUC从0.71提升到0.84——相当于用300张真实图达到了原本需要3000张的效果。

但生成式增强有边界。合成数据分布若与真实数据偏移,模型会学到幻觉特征。Google Research的SimCLR v2团队发现,当合成占比超过70%时,模型在真实测试集上的精度开始下滑。目前的经验法则是:合成数据作为"调味剂"而非"主食",比例控制在30%-50%区间。

第二条线是元学习(Meta-Learning)的落地。让人工智能"学会学习",而非死记硬背。MAML(Model-Agnostic Meta-Learning)及其变体在5-way 1-shot任务上已成标配——5个类别,每类1张样本,模型需要凭此分类新图像。

更实用的进展来自2022年的Surrogate Gradient Matching方法。它解决了元学习训练不稳定的老毛病,在MiniImageNet基准上,1-shot准确率从48%提升到54.6%。别小看这6.6个百分点,在医疗诊断场景,这意味着每15个病人里少漏诊1个。

第三条线是自监督预训练(Self-Supervised Pre-training)的迁移。先在大规模无标注数据上学通用表征,再在小样本上微调。MAE(Masked Autoencoder)在ImageNet上预训练后,仅用最顶层10%参数微调,就能在下游任务逼近全量训练效果。

关键洞察来自2023年的一项对比实验:用1000张标注图从头训练,准确率61%;先用100万张无标注图自监督预训练,再用1000张标注图微调,准确率72%。无标注数据的"预加热",让有限标注发挥了10倍效力。

噪声标签:脏数据里的信号提取

现实数据不仅少,还脏。众包标注平台的数据显示,ImageNet级别的简单任务,人工错误率约5%-10%;复杂医学影像,专家间一致性(Inter-rater Agreement)经常低于0.7。更隐蔽的是系统性偏差:某眼底数据集里,标注医生来自北方医院,对南方高发的特定病变类型存在认知盲区。

处理噪声的主流策略是"样本重加权"——给可靠样本更高权重,疑似噪声样本降低影响。Co-teaching方法让两个网络互相教学,每个网络筛选损失低的样本喂给另一个,形成"去噪闭环"。2021年的改进版Co-teaching+引入更新步调不一致机制,在40%对称噪声的CIFAR-10上,准确率比基线提升18个百分点。

更激进的思路是"噪声建模"。假设标签错误遵循某种概率分布,直接把噪声机制纳入学习目标。北大团队2022年的工作证明,当噪声类型为"类条件噪声"(即某类样本更常被错标为特定其他类)时,显式建模噪声转移矩阵,比盲目标签清洗有效得多。

但这里有个反直觉的陷阱:过度清洗会误杀困难样本。工业质检里的"临界缺陷"——既非明显良品也非明显废品——往往被模型预测为高损失,若直接当作噪声丢弃,会损失最关键的学习信号。某手机厂商曾因此漏掉屏幕边缘微裂纹的检测,召回成本超2亿。

从论文到产线的最后一公里

学术基准与真实部署的鸿沟,比数据稀缺本身更难跨越。学术数据集是静态的、封闭的、分布均衡的;真实数据是流式的、开放的、持续漂移的。

工业界的应对策略正在分化。重资产路线如特斯拉,用影子模式(Shadow Mode)持续收集 corner case,数据飞轮越转越快;轻资产路线如多数医疗AI公司,依赖主动学习(Active Learning)——模型主动挑选"最不确定"的样本请求人工标注,用最少人力获取最大信息增益。

主动学习的效率提升有明确量化。斯坦福HAI 2023年报告引用的案例显示,某病理切片分类任务中,随机标注需5000张图达到目标精度,主动学习仅需800张——标注成本下降84%。代价是系统复杂度:需要维护不确定性估计模块、人机交互接口、标注队列调度。

另一股暗流是"基础模型+提示学习"的兴起。Segment Anything Model(SAM)在1100万张图上预训练后,下游分割任务只需点几下提示(Prompt),无需重新训练。这本质上是用海量预训练"预存"知识,下游小数据仅用于"检索"和"适配"。

但SAM的医学迁移并不顺利。约翰霍普金斯大学的测试显示,在细胞核分割任务上,零样本SAM的Dice系数仅0.47,经100张图提示微调后提升到0.81——仍低于专门训练的U-Net(0.89)。通用预训练是起点,不是终点。

数据稀缺问题的终极解法,或许不在于技术本身,而在于重新定义"数据"的边界。联邦学习(Federated Learning)让医院在不共享原始数据的前提下联合建模;合成数据平台如AI.Reverie用游戏引擎生成无限街景;神经辐射场(NeRF)从稀疏视角重建三维场景,间接扩充训练素材。

这些方向各有代价。联邦学习的通信开销随模型规模指数增长,GPT级别的模型几乎无法联邦训练;合成数据的域间隙(Domain Gap)需要持续校准;NeRF的渲染速度限制了实时数据增强的可行性。

2024年初,Google DeepMind的一项内部研究被部分披露:在极端小样本设置下(每类10张图),结合扩散增强、元学习初始化、自监督预训练的三明治架构,首次在标准基准上逼近全监督性能的90%。论文尚未发表,但代码仓库的星标数三周破万。

如果数据不再是AI的瓶颈,什么会是?算力民主化之后,模型架构的边际收益正在递减,而"如何定义问题、如何采集信号、如何设计反馈闭环"——这些曾被数据红利掩盖的工程判断,正在重新浮出水面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二倍速跨国友谊!朴宝剑48小时后探班王安宇

二倍速跨国友谊!朴宝剑48小时后探班王安宇

流云随风去远方
2026-04-12 22:59:09
“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

素衣读史
2026-04-10 19:59:20
中国移动旗下公司:净利润预增2279%-3281%

中国移动旗下公司:净利润预增2279%-3281%

最通信
2026-04-12 21:10:38
理想称遭某品牌恶意拉踩,东风日产:尊重同行

理想称遭某品牌恶意拉踩,东风日产:尊重同行

澎湃新闻
2026-04-12 01:01:15
谢霆锋武汉演唱会快哭了,脸颊斑点明显眼袋重,一身中年男油腻感

谢霆锋武汉演唱会快哭了,脸颊斑点明显眼袋重,一身中年男油腻感

小娱乐悠悠
2026-04-12 10:28:21
李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

李斌:不是所有的隐藏式门把手都不安全 蔚来的是个例外

快科技
2026-04-10 12:20:06
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

二胡的岁月如歌
2026-04-09 15:09:50
优酷肠子都悔青了!3亿砸的“S+顶流剧”,播到第9集广告商全跑光

优酷肠子都悔青了!3亿砸的“S+顶流剧”,播到第9集广告商全跑光

许三岁
2026-04-10 09:30:06
八路军最悲壮的主力团,团长营长全战死,副团长成了二野头号虎将

八路军最悲壮的主力团,团长营长全战死,副团长成了二野头号虎将

史之铭
2026-04-12 16:48:19
新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

眼光很亮
2026-04-11 20:22:50
上海外滩某银行地下金库,存了80年从不清点,央行:冻结所有账户

上海外滩某银行地下金库,存了80年从不清点,央行:冻结所有账户

小哥很OK
2026-01-28 19:15:53
持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

持续三个世纪的仇恨难解,85%民众痛斥中国,瑞典为何如此反华?

壹知眠羊
2026-04-12 07:37:37
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

观察者海风
2026-04-09 17:42:58
继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

项鹏飞
2026-04-11 22:57:39
终究还是离了!姐姐卖烧饼挣了几百万,全给弟弟买车房,后悔吗?

终究还是离了!姐姐卖烧饼挣了几百万,全给弟弟买车房,后悔吗?

许三岁
2026-04-11 16:36:44
50个隐秘的漏财习惯,原来这就是中产“斩杀线”

50个隐秘的漏财习惯,原来这就是中产“斩杀线”

洞见
2026-04-11 14:53:46
iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

搞机小帝
2026-04-12 00:17:00
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
男子在银行门口尾随并盗走取款人车内40万元,撞警车拒捕潜入深山5日后落网

男子在银行门口尾随并盗走取款人车内40万元,撞警车拒捕潜入深山5日后落网

澎湃新闻
2026-04-12 12:54:31
太突然!中国音乐家被撞身亡,年仅35岁

太突然!中国音乐家被撞身亡,年仅35岁

吃青菜长高
2026-03-06 14:52:43
2026-04-13 00:35:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
1214文章数 13关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

手机
数码
本地
艺术
公开课

手机要闻

华为阔折叠设计图曝光!这外观你喜欢吗?

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

山东第一高楼即将完工!济南CBD,颜值爆表!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版