ImageNet用了1400万张图才撑起现代计算机视觉。但医院里的罕见病影像只有47例,卫星拍到的南海某岛礁全年无云图像仅23张,工厂质检的缺陷样本占比不到0.3%。
当学术界还在卷谁用了更多算力和数据时,真实世界早已把"数据充足"的假设撕得粉碎。这 gap 有多大?斯坦福医学院2022年的一项统计显示,超过60%的AI影像项目因数据不足卡在实验室阶段,从未见过临床病人。
数据稀缺的三种面孔
稀缺不是单一模样。小样本学习(Few-Shot Learning)处理的是绝对数量少——100张图训练一个分类器;不平衡学习(Imbalanced Learning)面对的是相对稀缺——99%正常样本淹没1%关键异常;噪声学习(Noisy Learning)则要在标签错误率高达40%的数据里找出规律。
这三种困境很少单独出现。医疗影像里,罕见病本身样本少(小样本),且健康人扫描远多于患者(不平衡),而专家标注分歧又制造了大量噪声标签。工业质检更极端:某汽车轴承厂的表面缺陷图像,三年积累仅217张,其中31张被两位工程师标记为"不确定"。
问题从来不是"数据不够",而是"不够的数据里还混着杂质"。
传统解法简单粗暴:加数据。OpenAI的CLIP用了4亿对图文数据,Stable Diffusion的LAION-5B包含58亿张图。但这条路在封闭场景走不通——卫星图像受轨道周期限制,工业缺陷等故障发生,病人隐私让数据共享变成法律雷区。
从"喂饱"到"教聪明"
新范式正在转向:不再追求数据量,而是提升数据利用效率。核心思路分三条线展开。
第一条线是数据增强的进化。传统增强是旋转、裁剪、调色,属于"机械扩充"。现在的生成式增强用扩散模型(Diffusion Model)合成逼真样本。2023年MIT团队的一项研究显示,在皮肤病变分类任务中,用扩散模型生成合成图像补充训练,小样本场景下的AUC从0.71提升到0.84——相当于用300张真实图达到了原本需要3000张的效果。
但生成式增强有边界。合成数据分布若与真实数据偏移,模型会学到幻觉特征。Google Research的SimCLR v2团队发现,当合成占比超过70%时,模型在真实测试集上的精度开始下滑。目前的经验法则是:合成数据作为"调味剂"而非"主食",比例控制在30%-50%区间。
第二条线是元学习(Meta-Learning)的落地。让人工智能"学会学习",而非死记硬背。MAML(Model-Agnostic Meta-Learning)及其变体在5-way 1-shot任务上已成标配——5个类别,每类1张样本,模型需要凭此分类新图像。
更实用的进展来自2022年的Surrogate Gradient Matching方法。它解决了元学习训练不稳定的老毛病,在MiniImageNet基准上,1-shot准确率从48%提升到54.6%。别小看这6.6个百分点,在医疗诊断场景,这意味着每15个病人里少漏诊1个。
第三条线是自监督预训练(Self-Supervised Pre-training)的迁移。先在大规模无标注数据上学通用表征,再在小样本上微调。MAE(Masked Autoencoder)在ImageNet上预训练后,仅用最顶层10%参数微调,就能在下游任务逼近全量训练效果。
关键洞察来自2023年的一项对比实验:用1000张标注图从头训练,准确率61%;先用100万张无标注图自监督预训练,再用1000张标注图微调,准确率72%。无标注数据的"预加热",让有限标注发挥了10倍效力。
噪声标签:脏数据里的信号提取
现实数据不仅少,还脏。众包标注平台的数据显示,ImageNet级别的简单任务,人工错误率约5%-10%;复杂医学影像,专家间一致性(Inter-rater Agreement)经常低于0.7。更隐蔽的是系统性偏差:某眼底数据集里,标注医生来自北方医院,对南方高发的特定病变类型存在认知盲区。
处理噪声的主流策略是"样本重加权"——给可靠样本更高权重,疑似噪声样本降低影响。Co-teaching方法让两个网络互相教学,每个网络筛选损失低的样本喂给另一个,形成"去噪闭环"。2021年的改进版Co-teaching+引入更新步调不一致机制,在40%对称噪声的CIFAR-10上,准确率比基线提升18个百分点。
更激进的思路是"噪声建模"。假设标签错误遵循某种概率分布,直接把噪声机制纳入学习目标。北大团队2022年的工作证明,当噪声类型为"类条件噪声"(即某类样本更常被错标为特定其他类)时,显式建模噪声转移矩阵,比盲目标签清洗有效得多。
但这里有个反直觉的陷阱:过度清洗会误杀困难样本。工业质检里的"临界缺陷"——既非明显良品也非明显废品——往往被模型预测为高损失,若直接当作噪声丢弃,会损失最关键的学习信号。某手机厂商曾因此漏掉屏幕边缘微裂纹的检测,召回成本超2亿。
从论文到产线的最后一公里
学术基准与真实部署的鸿沟,比数据稀缺本身更难跨越。学术数据集是静态的、封闭的、分布均衡的;真实数据是流式的、开放的、持续漂移的。
工业界的应对策略正在分化。重资产路线如特斯拉,用影子模式(Shadow Mode)持续收集 corner case,数据飞轮越转越快;轻资产路线如多数医疗AI公司,依赖主动学习(Active Learning)——模型主动挑选"最不确定"的样本请求人工标注,用最少人力获取最大信息增益。
主动学习的效率提升有明确量化。斯坦福HAI 2023年报告引用的案例显示,某病理切片分类任务中,随机标注需5000张图达到目标精度,主动学习仅需800张——标注成本下降84%。代价是系统复杂度:需要维护不确定性估计模块、人机交互接口、标注队列调度。
另一股暗流是"基础模型+提示学习"的兴起。Segment Anything Model(SAM)在1100万张图上预训练后,下游分割任务只需点几下提示(Prompt),无需重新训练。这本质上是用海量预训练"预存"知识,下游小数据仅用于"检索"和"适配"。
但SAM的医学迁移并不顺利。约翰霍普金斯大学的测试显示,在细胞核分割任务上,零样本SAM的Dice系数仅0.47,经100张图提示微调后提升到0.81——仍低于专门训练的U-Net(0.89)。通用预训练是起点,不是终点。
数据稀缺问题的终极解法,或许不在于技术本身,而在于重新定义"数据"的边界。联邦学习(Federated Learning)让医院在不共享原始数据的前提下联合建模;合成数据平台如AI.Reverie用游戏引擎生成无限街景;神经辐射场(NeRF)从稀疏视角重建三维场景,间接扩充训练素材。
这些方向各有代价。联邦学习的通信开销随模型规模指数增长,GPT级别的模型几乎无法联邦训练;合成数据的域间隙(Domain Gap)需要持续校准;NeRF的渲染速度限制了实时数据增强的可行性。
2024年初,Google DeepMind的一项内部研究被部分披露:在极端小样本设置下(每类10张图),结合扩散增强、元学习初始化、自监督预训练的三明治架构,首次在标准基准上逼近全监督性能的90%。论文尚未发表,但代码仓库的星标数三周破万。
如果数据不再是AI的瓶颈,什么会是?算力民主化之后,模型架构的边际收益正在递减,而"如何定义问题、如何采集信号、如何设计反馈闭环"——这些曾被数据红利掩盖的工程判断,正在重新浮出水面。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.