神经网络训练从不收敛到唯一解,却总能泛化良好——这个悖论困扰学界多年。最新研究指出,答案藏在优化算法的几何轨迹中。
随机梯度下降(SGD)的迭代路径并非随机漫步。其隐式偏置使模型自动偏好低复杂度解,即使损失函数平坦如高原,优化器仍会滑向特定"峡谷"。这种隐式正则化效应,解释了为何过参数化网络不会过拟合。
![]()
研究揭示关键机制:梯度流的几何曲率与参数空间的黎曼结构相互作用,形成天然的复杂度惩罚项。不同于显式正则化(如L2),这种约束内生于优化动态本身。
![]()
该框架统一了多个经验观察——批量大小影响泛化、学习率调度改变解的性质、动量加速隐式偏好平坦极小值。理论预测与大规模实验吻合。
![]()
工程启示:优化器设计即模型先验。选择Adam还是SGD,本质是在选择不同的隐式归纳偏置。这为重写训练范式提供了新视角。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.