网易首页 > 网易号 > 正文 申请入驻

南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式

0
分享至

机器之心报道

编辑:冷猫、Panda

世界是动态变化的。为了理解这个动态变化的世界并在其中运行,AI 模型必须具备在线学习能力。为此,该领域提出了一种新的性能指标 —— 适应性遗憾值(adaptive regret),其定义为任意区间内的最大静态遗憾值。

在在线凸优化(online convex optimization)的框架下,已有一些算法能够有效地最小化自适应遗憾值。然而,现有算法存在通用性不足的问题:它们通常只能处理某一类特定的凸函数,并且需要预先知道某些参数,这限制了它们在实际场景中的应用。

为了解决这一局限,南京大学周志华团队研究了具有双重自适应性(dual adaptivity)的通用算法。这类算法不仅能够自动适应函数的性质(如凸、指数凹或强凸),还能够适应环境的变化(如静态或动态环境)。

  • 论文标题:Dual Adaptivity: Universal Algorithms for Minimizing the Adaptive Regret of Convex Functions
  • 论文链接:https://arxiv.org/pdf/2508.00392

具体而言,该团队提出了一种元-专家框架(meta-expert framework),用于构建双重自适应算法。在该框架中,会动态地创建多个专家算法,并通过一个元算法进行集成。该元算法需满足二阶界限(second-order bound)的要求,以应对未知的函数类型。

为了捕捉环境的变化,该团队还进一步引入了「休眠专家(sleeping experts)」技术。在专家的构建策略上,本文提出了两种通用性实现方式:一是增加专家数量,二是提升专家能力。

理论分析表明,该方法能够同时对多种类型的凸函数实现自适应遗憾值最小化,且在不同轮次之间函数类型可变的情况下依然保持有效。

此外,该团队还将元-专家框架成功扩展用于「在线复合优化(online composite optimization)」,并提出了一种通用算法,用于最小化复合函数的自适应遗憾值。

用于实现双重自适应性的元-专家框架

该团队提出的元-专家框架包含三个关键组成部分:

  • 专家算法:能够最小化静态遗憾值;
  • 区间集合:每个区间关联一个或多个专家,负责最小化该区间内的遗憾;
  • 元算法:在每一轮中组合当前活跃专家的预测结果。

受静态遗憾值通用算法研究成果的启发,该团队选择的元算法是 Adapt-ML-Prod,他们还将其扩展为了支持「休眠专家」的版本,即仅在特定时间段活跃的专家。

改进后的元算法达成了二阶界限,能够自适应函数的特性,从而获得较小的元遗憾值。

基于以往工作,他们采用几何覆盖(Geometric Covering, GC)区间来定义专家的生命周期。为了在这些区间上构建专家,他们提出两种策略:一种是增加专家数量,另一种是提升专家能力。下面将分别介绍基于这两种策略的算法。

双层通用算法(UMA2)

对于增加专家数量的策略,周志华团队提出了一种用于最小化自适应遗憾值的双层通用算法(UMA2)

相比现有的自适应算法,UMA2 在每个区间上引入了更大规模的专家集合,以应对函数类型及其相关参数不确定性的挑战。这些专家的决策结果通过前述元算法进行聚合,从而构成一个双层结构。

值得注意的是,尽管这里的元算法受到 Zhang et al. (2022) 的论文《A simple yet universal strategy for online convex optimization》启发,但这两项研究在专家的构建方式上存在显著差异。

具体来说,该团队引入了由不同学习率参数化的替代损失函数(surrogate loss),让每位专家分别最小化一个替代损失函数;而在 Zhang et al. 的方法中,每个专家则是直接优化原始损失函数。

这一设计使这里新提出的方法无需进行多次梯度估计,并且避免了对参数有界性的假设

该团队也进行了理论分析,结果表明,UMA2 能够有效最小化一般凸函数的自适应遗憾值,并在可能的情况下自动利用函数的「易解性」。具体而言,UMA2 分别对以下三类函数达成如下的强自适应遗憾值界限:

  • 一般凸函数:

  • α- 指数凹函数:

  • λ- 强凸函数:

其中,d 表示问题的维度。上述界限均与当前最优的自适应遗憾值结果完全一致。

此外,UMA2 还能够应对函数类型在不同轮次之间发生变化的情况。例如,假设在区间 I_1 内,在线函数为一般凸函数;在区间 I_2 中变为 α- 指数凹函数;最终在区间 I_3 中切换为 λ- 强凸函数。对于这样的函数序列,UMA2 在各个区间中分别实现以下遗憾值界限:

  • 在 I_1:

  • 在 I_2:

  • 在 I_3:

算法 2: 基于原始损失的 UMA2

算法 3: 基于替代损失的 UMA2

三层通用算法(UMA3)

对于第二种,即提升专家能力的策略,该团队提出了一种三层通用算法(UMA3),同样用于最小化自适应遗憾值。与以往依赖专用专家的自适应算法不同,UMA3 提升的是单个专家的能力,使其能够处理更广泛的凸函数类别。

具体而言,他们采用了现有的用于最小化静态遗憾值的通用算法Maler作为专家算法。然后,使用与 UMA2 相同的元算法动态聚合专家决策。

由于 Maler 本身是一个双层结构,因此 UMA3 构成了一个三层结构。与 UMA2 不同的是,UMA3 将现有通用算法作为黑盒子子程序使用,从而简化了算法设计与理论分析。

UMA3 达成的强自适应遗憾值界限与 UMA2 相同,并同样支持函数类型在不同轮次之间的切换。

算法 4: 最小化自适应遗憾值的 UMA3

在线复合优化(Online Composite Optimization)

该团队还进一步研究了在线复合优化问题,其中损失函数定义为

即由时间变化的函数 f_t (・) 与固定的凸正则项 r (・) 组成。而该团队的目标是设计一种通用算法,最小化复合函数形式的自适应遗憾值:

一种直观的做法是将复合函数 F_t (w) 直接输入 UMA2 或 UMA3。但这种方法难以对指数凹函数获得紧致的自适应遗憾界限,因为一个指数凹函数与一个凸正则项之和通常不再保持指数凹性质。

为解决这一问题,他们为在线复合优化构建了一个新的元-专家框架,并采用Optimistic-Adapt-ML-Prod作为元算法。借助《Universal online convex optimization meets second-order bounds》中提出的乐观设定(optimism setting),该团队证明该框架在时间变化的函数下能达成二阶界限。

为了应对多样的函数类型,可以采用两种方案:构建大量专用专家,或构建少量能力更强的专家。为简化实现,该团队的选择是后者,使用复合函数的通用算法作为专家。

此外,由于之前的乐观设定方法依赖于模量有界性的假设,因此该团队提出了一种新的不依赖该假设的通用复合函数算法。在每个区间上部署一个专家后,新算法对三类复合函数 f_t (・) 分别实现了以下强自适应遗憾界限:

  • 一般凸函数:

  • α-指数凹函数:

  • λ-强凸函数:

算法 5: 面向在线复合优化的双重自适应元-专家框架


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女大学生泰国旅游被高价转卖缅甸园区,照片流出长这么好看被折磨太惨

女大学生泰国旅游被高价转卖缅甸园区,照片流出长这么好看被折磨太惨

不二表姐
2026-04-24 22:41:14
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-04-25 14:07:02
智驾产业逻辑面临颠覆,卓驭迎来价值全面重估

智驾产业逻辑面临颠覆,卓驭迎来价值全面重估

第一财经资讯
2026-04-20 22:04:00
美国被曝考虑“惩罚”西班牙 桑切斯:支持盟友须遵守国际法

美国被曝考虑“惩罚”西班牙 桑切斯:支持盟友须遵守国际法

环球网资讯
2026-04-25 14:06:16
成都这把火5死2伤,人是怎么死的,又是电瓶车?

成都这把火5死2伤,人是怎么死的,又是电瓶车?

靠山屯闲话
2026-04-25 13:50:44
赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

赖清德飞机被拒,美国急得跳脚:你连领空都不给过,我这“站台”站了个寂寞?

两岸观点
2026-04-23 12:30:15
猛人是从底层杀出来的

猛人是从底层杀出来的

汉周读书
2026-04-24 17:28:00
张军失联背后四大影响曝光!李永波巧妙脱身,刘国梁成舆论焦点

张军失联背后四大影响曝光!李永波巧妙脱身,刘国梁成舆论焦点

小椰的奶奶
2026-04-25 11:12:21
简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

闪电新闻
2026-04-25 08:55:39
北上的广汽,用“改革”彻底打破枷锁

北上的广汽,用“改革”彻底打破枷锁

汽车公社
2026-04-25 08:34:37
10国签反华协议!沉默一天后,中方出手,不得未经允许接受美资

10国签反华协议!沉默一天后,中方出手,不得未经允许接受美资

清欢百味
2026-04-25 16:25:29
雷克萨斯全新一代ES:不做越级,而做跃级

雷克萨斯全新一代ES:不做越级,而做跃级

网上车市
2026-04-24 21:32:03
学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

学历贬值到什么程度了:超5900名中小学老师拥有博士学历!

灯锦年
2026-04-25 12:03:48
惊天内幕!1984年中美黑鹰交易只交付24架,真相竟是战略失误!

惊天内幕!1984年中美黑鹰交易只交付24架,真相竟是战略失误!

人生录
2026-04-25 15:13:17
上海严打,多区通报!最新披露:麻辣烫吃出抹布商家被罚50000元

上海严打,多区通报!最新披露:麻辣烫吃出抹布商家被罚50000元

新民晚报
2026-04-25 19:46:03
成都姆巴佩挡不住!断球反击一条龙,6场连造7球,汪士钦“送礼”

成都姆巴佩挡不住!断球反击一条龙,6场连造7球,汪士钦“送礼”

奥拜尔
2026-04-25 19:25:12
霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

霍尔木兹海峡封锁,美国能源出口飙升,二战以来首次接近成为原油净出口国

红星新闻
2026-04-25 12:32:20
老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

魔都姐姐杂谈
2026-04-24 11:56:08
英超-阿森纳3-0纽卡斯尔:争冠未失主动,枪手捞净胜球|前瞻

英超-阿森纳3-0纽卡斯尔:争冠未失主动,枪手捞净胜球|前瞻

体育世界
2026-04-25 15:51:42
中国羽协主席被查!网友:何济霆如愿以偿 刘国梁李永波都落地

中国羽协主席被查!网友:何济霆如愿以偿 刘国梁李永波都落地

胡一舸南游y
2026-04-25 16:10:37
2026-04-25 20:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12852文章数 142636关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

本地
游戏
手机
旅游
教育

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

索尼新规落地!所有数字版游戏都要强制30天联网验权

手机要闻

W16周排名出炉:vivo第四、小米第五,冠军还是它

旅游要闻

去马登乡寻找杜鹃花海,结果误打误撞,领略了数千亩苹果花的风韵

教育要闻

我国“就业率逼近100%”的5所双非大学,500多分就能上!

无障碍浏览 进入关怀版