网易首页 > 网易号 > 正文 申请入驻

ICML 2024 | GLWS:一个通用高效的框架统一弱监督学习

0
分享至

近年来,机器学习在各个领域展现出了惊人的性能表现,然而,获取高质量的大规模标注数据在实际应用中往往困难重重。本文介绍了一个应对这一挑战的通用框架——从弱监督中学习的通用框架(GLWS)。本文由来自卡耐基梅隆大学、微软研究院、新加坡科技设计大学等机构的研究人员共同完成,展示了一种通过期望最大化(EM)算法学习来自各种弱监督源的通用方法,在十几个弱监督问题中显著提升了模型的可扩展性和性能。

论文标题: A General Framework for Learning from Weak Supervision 论文链接: https://arxiv.org/abs/2402.01922 论文代码: https://github.com/Hhhhhhao/General-Framework-Weak-Supervis

一、背景介绍:弱监督学习的挑战

弱监督标签在机器学习应用时广泛存在,比如噪音标签(noisy label), 单个数据对应多个标签(partial label/crowdsourcing), 多个数据对应单个标签(multiple-instance learning/label proportion)。在每个不同标签的场景下都有很多方法被提出。然而弱监督学习仍然面临着两个主要挑战:

  • 处理多种弱监督配置的普适性: 过去的传统方法通常需要针对特定形式的弱监督设计特定的解决方案,难以在多种弱监督形式下普遍适用。然而实际应用中非常可能多种弱监督标签共同存在。

  • 现有算法的复杂性导致的可扩展性问题: 过去的方法通常通过过于简单的假设或者过于复杂的模块设计来解决多种弱监督的问题,导致这些方法没办法很好的被大规模的实际应用。

本文提出GLWS,一种基于最大期望算法(Expectation-Maximization, EM)的弱监督学习框架,通过将各种弱监督形式建模为非确定性有限自动机(Non-determinstic Finite Automata, NFA),并结合前向后向(Forward-Backward Algorithm)算法,高效的解决所提出的EM框架。

GLWS使得EM计算的时间复杂度从传统方法的二次或阶乘级别降低到了线性级别,并且可以广泛的应用于不同的弱监督场景(14+)。

二、弱监督分类学习的通用EM框架

我们用 表示一对有准确标签的训练数据; 表示可学习的分类器, 用来预测 .

2.1 全监督学习

对于所有标签完整且准确的全监督学习,我们有学习目标:

以及对应的损失函数:

2.2 弱监督学习

在实际应用中,我们往往接触不到完整且准确的标签( unkown),能接触到的只有弱监督标签。这里我们把弱监督标签抽象的表示为 ,用来代表不同形式的弱监督信息,比如:

  • Partial label learning中的多个标签

  • Multiple instance learning中的标签统计

  • Label proportion learning中的标签数量统计 对于不同的弱监督标签/信息,我们的优化目标为:


因为 未知以及对 的marginalization需要已知 ,以上优化目标通常只能通过迭代 - EM算法 - 来解决:

为了进一步推到基于EM的通用弱监督学习的损失函数,我们把训练数据重新表示为 和 , 。不同种类的弱监督标签可以理解为在 上的已知信息。

基于条件概率独立假设,我们可以推导基于EM的通用弱监督学习的损失函数为:

注:以上假设对于non-sequential network来说是完全准确的。

三、GLWS: 高效解决EM弱监督学习

尽管有了通用的弱监督学习的损失函数,可以发现这个损失函数仍然是难以解决的,计算 需要找到 所有当前弱监督信息 满足的可能的标签组合 。

对于一些弱监督场景,计算 的复杂度可以高达 或 .

为了解决计算复杂度的问题,我们提出了一个新颖且有趣的角度 -非确定性有限自动机(NFA).

3.1 非确定性有限自动机(NFA)

基于我们的建模,我们可以把“找到 所有当前弱监督信息 满足的可能的标签组合 ”这个问题表示为一个NFA (详情可见维基百科 https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%A1%AE%E5%AE%9A%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E8%87%AA%E5%8A%A8%E6%9C%BA )。

对于不同的弱监督标签,我们可以用不同的NFA来表示

3.2 动态规划算法

有了不同弱监督场景的NFA之后,我们可以进一步基于模型预测的output的线性图和弱监督的NFA来把所有满足弱监督信息 的标签 也表示为一个线性图:

其中每条trelli就表示一组满足 的可能的标签。在所得图上,我们可以采用动态规划算法 -forward-backward algorithm, 来以线性复杂度计算 , 以高效的解决EM损失函数。

对于其中每个节点,我们可以结合前向 和后向 来计算:

以上算法可以通过把不同类别都表示为一个二分类问题从而简单的扩展到多分类问题上。

四、实验结果

我们在CIFAR-10、CIFAR-100、STL-10和ImageNet-100等多个数据集上进行了实验,GLWS在14个弱监督学习任务中都表现出色。例如,在ImageNet-100数据集上,GLWS在部分标签学习任务中的准确率相比之前最好的方法提高了1.28%。这里我们只展示部分结果,更多结果可以查看论文。

五、算法分析

我们同时对GLWS进行了一些算法层面的分析。

相比于之前的方法,GLWS展现出来稳定的快速收敛。

对于不同 , GLWS展现符合预期的线性复杂度。

六、实践意义

GLWS不仅提高了机器学习模型在弱监督条件下的扩展性和性能,还为实际应用中的大规模部署铺平了道路。代码已开源,可供研究人员和开发者进一步研究和应用。

通过GLWS框架,弱监督学习不再局限于特定的场景,变得更加普遍适用和高效。GLWS的计算复杂度可以进一步被优化,融入NFA minimization和determinization来简化图。GLWS也可以被扩展到其他的sequential的任务中。期待未来更多的研究能够基于此框架以及GLWS和foundation model的交叉。

引用论文

  • Wei, Z., Feng, L., Han, B., Liu, T., Niu, G., Zhu, X. and Shen, H.T., 2023, July. A universal unbiased method for classification from aggregate observations. In International Conference on Machine Learning (pp. 36804-36820). PMLR.

  • Shukla, V., Zeng, Z., Ahmed, K. and Van den Broeck, G., 2024. A Unified Approach to Count-Based Weakly Supervised Learning. Advances in Neural Information Processing Systems, 36.

作者:王晋东 来源:公众号【王晋东不在家】

llustration From IconScout By Alexdndz

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卢卡申科是真清醒,访华两天时间里,有些不该说的他一句都没说!

卢卡申科是真清醒,访华两天时间里,有些不该说的他一句都没说!

共工之锚
2026-07-01 00:41:07
为何狂犬病毒致死率是99.99%,不是100%,谁幸运活下来了?

为何狂犬病毒致死率是99.99%,不是100%,谁幸运活下来了?

荆医生科普
2026-06-29 21:45:04
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
警方通报:40岁杨某诋毁袁隆平科研成果,被刑拘

警方通报:40岁杨某诋毁袁隆平科研成果,被刑拘

观察者网
2026-06-29 21:36:08
勒布朗·詹姆斯告别湖人 将赴新队开启第24季

勒布朗·詹姆斯告别湖人 将赴新队开启第24季

竞技风云录
2026-07-01 00:45:01
替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

千秋文化
2026-06-27 19:44:16
哪些地方婚礼陋习让你很无语?网友:恶俗的习俗,每次看到都想吐

哪些地方婚礼陋习让你很无语?网友:恶俗的习俗,每次看到都想吐

解读热点事件
2026-06-24 22:18:30
宜宾地震预警手机推送数据曝光,华为推送超千万惹争议!网友:人口才400多万,看笑了

宜宾地震预警手机推送数据曝光,华为推送超千万惹争议!网友:人口才400多万,看笑了

大白聊IT
2026-06-30 17:46:44
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

二胡的岁月如歌
2026-06-27 18:18:29
侃爷13岁女儿被陌生男子强行拥抱,说唱大佬怒斥:保护孩子!

侃爷13岁女儿被陌生男子强行拥抱,说唱大佬怒斥:保护孩子!

自愈小日子
2026-06-30 00:00:48
一掷千金的“大哥”越来越少!女主播群体从深圳迁到惠州路边帐篷

一掷千金的“大哥”越来越少!女主播群体从深圳迁到惠州路边帐篷

火山詩话
2026-06-29 04:37:21
梁文峰身家要破万亿?中国首富恐要换人了

梁文峰身家要破万亿?中国首富恐要换人了

次元君情感
2026-06-23 16:48:02
罗永浩为韩红发声:虽然我也捐过很多钱,但和她却完全比不了

罗永浩为韩红发声:虽然我也捐过很多钱,但和她却完全比不了

映射生活的身影
2026-06-30 16:37:05
宣布了!准备重返NBA!状元郎直接点名热火

宣布了!准备重返NBA!状元郎直接点名热火

篮球实战宝典
2026-06-30 21:12:05
3年6400万!31岁的威金斯,现在什么水平?

3年6400万!31岁的威金斯,现在什么水平?

篮球实录
2026-07-01 00:46:03
连炸两日,特朗普喊话要灭伊朗!伊导弹反击,重创228处美军据点

连炸两日,特朗普喊话要灭伊朗!伊导弹反击,重创228处美军据点

新姐看世界
2026-06-30 19:30:47
2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

IT之家
2026-06-30 16:30:15
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

绿茵八卦君
2026-06-30 08:50:03
扎心的问题:这个社会那么多人失业、没工作,他们是怎么活下去的

扎心的问题:这个社会那么多人失业、没工作,他们是怎么活下去的

慧翔百科
2026-06-29 11:30:42
2026-07-01 01:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2417文章数 596关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

家居
时尚
健康
数码
游戏

家居要闻

传奇筑 日常诗

Meiinpsn的穿衣风格,清新又叛逆

狂吃“糯叽叽”小心肠梗阻!

数码要闻

REDMI K90至尊版发布:2999元起 风冷散热+骁龙8至尊版芯片

《龙信2》DLC公布新图!金发银貂美女等三大角色

无障碍浏览 进入关怀版