网易首页 > 网易号 > 正文 申请入驻

优化算法的"三明治":为什么有些函数好训,有些像噩梦

0
分享至

做过梯度下降的人都有这种体验:有些函数优化起来顺风顺水,有些却像陷入泥沼。差别往往藏在两个性质里——强凸性(strong convexity)和L-光滑性(L-smoothness)。它们像两片面包,把目标函数夹在一个二次函数的"三明治"里。夹得越紧,优化越轻松;缺了任何一片,事情就会变糟。

这篇笔记从零搭建这两个概念,看看它们如何组成"二次三明治",聊聊Hessian特征值层面的含义,最后分享一个不用算特征值就能验证L-光滑性的技巧。


强凸性:函数不能太"平"

一个可微函数 $f:\mathbb{R}^n\to\mathbb{R}$ 是 $\mu$-强凸的($\mu > 0$),如果对任意 $x, y$ 满足:

$$f(y) \geq f(x) + \langle \nabla f(x), y - x \rangle + \frac{\mu}{2} \|y - x\|^2$$

右边前两项是 $f$ 在 $x$ 处的一阶泰勒展开。普通凸函数里,这个展开已经是全局下界。强凸性要求更多:函数必须始终高于切线,再加上一个二次间隙。$\mu$ 越大,函数向上弯曲得越厉害,离线性近似越远。

直观理解:强凸函数在每个方向都有至少 $\mu$ 的最小曲率。它不会变平,不会形成平台,也不会出现某个方向几乎平坦的退化山谷。总有一股力把你拉向最小值,而且这股力随距离线性增长。

L-光滑性:梯度不能太"野"

一个可微函数 $f$ 是 $L$-光滑的,如果其梯度满足Lipschitz连续:

$$\|\nabla f(x) - \nabla f(y)\| \leq L \|x - y\| \quad \forall \; x, y$$

仔细读:任意两点的梯度变化,始终被输入变化的 $L$ 倍所控制。无论 $x$ 和 $y$ 多远,梯度差 $\|\nabla f(x) - \nabla f(y)\|$ 永远跑不赢 $L$ 倍的输入差 $\|x - y\|$。常数 $L$ 像一根 leash(牵引绳):梯度可以动,但不能猛拽。没有急转弯,没有曲率的突然飙升。

对三明治更关键的等价刻画是下降引理(descent lemma):若 $f$ 凸且 $L$-光滑,则对任意 $x, y$

$$f(y) \leq f(x) + \langle \nabla f(x), y - x \rangle + \frac{L}{2}\|y - x\|^2$$

这从Lipschitz条件 alone 并不显然——需要沿 $x$ 到 $y$ 的线段积分梯度,并用柯西-施瓦茨不等式推导,细节见附录。

二次三明治:上下夹击

把两个不等式合起来,强凸且 $L$-光滑的函数满足:

$$f(x) + \langle \nabla f(x), y - x \rangle + \frac{\mu}{2}\|y-x\|^2 \leq f(y) \leq f(x) + \langle \nabla f(x), y - x \rangle + \frac{L}{2}\|y-x\|^2$$

这就是"二次三明治":$f(y)$ 被两个二次函数夹在中间,共享同一个切平面,但曲率不同。下界曲率 $\mu$,上界曲率 $L$。比值 $\kappa = L/\mu$ 叫条件数(condition number),是优化难度的核心指标。

$\kappa$ 接近1时,两片面包贴得很近,函数行为高度可预测,梯度下降收敛飞快。$\kappa$ 很大时,三明治被撑开,函数在某些方向很陡、另一些方向很平,优化器会在平坦方向磨蹭,在陡峭方向震荡。

Hessian视角:特征值说了算

对二阶可微函数,这两个性质有干净的Hessian刻画。设 $H(x) = \nabla^2 f(x)$ 为Hessian矩阵,特征值为 $\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$。

强凸性等价于:对所有 $x$,$H(x) \succeq \mu I$,即最小特征值 $\lambda_{\min} \geq \mu > 0$。函数在每个方向都向上弯曲,没有平坦方向。

$L$-光滑性等价于:对所有 $x$,$H(x) \preceq L I$,即最大特征值 $\lambda_{\max} \leq L$。梯度变化有界,没有方向曲率爆炸。

合起来:$$\mu I \preceq H(x) \preceq L I \quad \forall x$$

条件数 $\kappa = L/\mu = \lambda_{\max}/\lambda_{\min}$,正是Hessian特征值的极值比。这个比值直接决定优化问题的"形状"——越接近1越圆润,越大越扁平。

免特征值验证:一个实用技巧

实际中,大规模问题的Hessian维度太高,算特征值不现实。但有个观察:很多损失函数是多个简单函数的和或复合,而L-光滑性在这些操作下有良好的传播规则。

若 $f(x) = \frac{1}{m}\sum_{i=1}^m f_i(x)$,且每个 $f_i$ 是 $L_i$-光滑的,则 $f$ 是 $L$-光滑的,其中 $L = \frac{1}{m}\sum_{i=1}^m L_i$(平均)或 $L = \max_i L_i$(更紧的界)。

若 $f(x) = g(Ax + b)$,$g$ 是 $L_g$-光滑的,则 $f$ 是 $L$-光滑的,其中 $L = L_g \cdot \|A\|_{op}^2$,$\|A\|_{op}$ 是 $A$ 的算子范数(最大奇异值)。

神经网络中常用:若激活函数是1-Lipschitz(如ReLU、tanh),且权重矩阵的谱范数有界,则整个网络的L-光滑性可被逐层控制。这避免了直接处理百万维Hessian。

结语

强凸性和L-光滑性这对"面包片",把优化问题的难度编码进一个数字 $\kappa$ 里。它们解释了为什么同样的梯度下降,在逻辑回归上秒收敛,在某些深度网络上却步履维艰。理解这个三明治结构,是分析算法收敛性、设计预处理策略、甚至改造损失函数的理论起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方战略专家:“全世界最强大的国家,肯定是中国”

西方战略专家:“全世界最强大的国家,肯定是中国”

农夫史记
2026-05-24 20:34:51
他是黎家盈丈夫,放弃事业迁居北京照顾3孩子,难怪妻子能上太空

他是黎家盈丈夫,放弃事业迁居北京照顾3孩子,难怪妻子能上太空

舍长阿爷谈事
2026-05-24 23:02:06
双响助球队逆转,沃特金斯当选曼城vs维拉全场最佳

双响助球队逆转,沃特金斯当选曼城vs维拉全场最佳

懂球帝
2026-05-25 01:37:14
央视亏了?曝印度已买2届世界杯转播权:仅花3500万美元 FIFA妥协

央视亏了?曝印度已买2届世界杯转播权:仅花3500万美元 FIFA妥协

风过乡
2026-05-24 07:57:48
五角大楼公开UFO新片!全世界被震惊了!

五角大楼公开UFO新片!全世界被震惊了!

浪子的烟火人间
2026-05-24 00:55:03
刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

老玮是个手艺人
2026-03-27 14:46:10
关于广东省委省政府机关搬迁南沙的思考

关于广东省委省政府机关搬迁南沙的思考

奇思妙想生活家
2026-05-23 13:16:43
特朗普刚称“达成协议”,伊朗卫队就强硬表态,鲁比奥说好事将近

特朗普刚称“达成协议”,伊朗卫队就强硬表态,鲁比奥说好事将近

逐梦先锋
2026-05-24 20:19:10
7万亿砸下!中国基建最大一次系统升级,普通人财富风口来了?

7万亿砸下!中国基建最大一次系统升级,普通人财富风口来了?

菁菁子衿
2026-05-24 12:49:21
又说啥呢?B费赛后找巴莱巴聊了几句

又说啥呢?B费赛后找巴莱巴聊了几句

懂球帝
2026-05-25 01:37:13
千古谜题破解!秦始皇陵千吨水银竟来自一个女人,古人手段太绝了

千古谜题破解!秦始皇陵千吨水银竟来自一个女人,古人手段太绝了

鹤羽说个事
2026-05-23 22:36:31
令人唏嘘,香港女星走投无路,在网上卖大尺度照片,是谁逼的?

令人唏嘘,香港女星走投无路,在网上卖大尺度照片,是谁逼的?

动物奇奇怪怪
2026-05-24 21:18:09
随着长春亚泰0-4,中甲最新积分榜出炉:榜首易主

随着长春亚泰0-4,中甲最新积分榜出炉:榜首易主

侧身凌空斩
2026-05-24 17:25:28
5比0!徐正源带领辽宁铁人远离苦海,保级格局发生变化

5比0!徐正源带领辽宁铁人远离苦海,保级格局发生变化

巴适足球
2026-05-25 01:40:03
埃及队身价:马尔穆什6000万,萨拉赫3000万,全队1.36亿欧元

埃及队身价:马尔穆什6000万,萨拉赫3000万,全队1.36亿欧元

懂球帝
2026-05-24 12:33:53
界面快评|山西沁源矿难已致82人遇难,安全生产多重保险为何失灵?

界面快评|山西沁源矿难已致82人遇难,安全生产多重保险为何失灵?

界面新闻
2026-05-24 09:52:17
香港第一风水师陈朗,因助人改命受天谴,李嘉诚花费千万为他续命

香港第一风水师陈朗,因助人改命受天谴,李嘉诚花费千万为他续命

郁郁乎文
2024-07-07 22:25:36
蜂蜜被点名!医生提醒:糖尿病患者常喝蜂蜜水很快迎来4个改变!

蜂蜜被点名!医生提醒:糖尿病患者常喝蜂蜜水很快迎来4个改变!

芹姐说生活
2026-05-20 23:42:03
都说处级干部随处可见,一座地级市到底有多少正局级干部?

都说处级干部随处可见,一座地级市到底有多少正局级干部?

阿离家居
2026-05-25 01:35:39
被马斯克说中了:现在世界不再抢芯片,抢咱们20万一台的变压器

被马斯克说中了:现在世界不再抢芯片,抢咱们20万一台的变压器

贱议你读史
2026-05-24 08:45:03
2026-05-25 03:03:00
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
3747文章数 31关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

时尚
房产
教育
本地
公开课

《低智商犯罪》一半惊喜,一半可惜

房产要闻

疯狂周末,海口楼市突然爆了!

教育要闻

养女儿一定要懂的道理!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版