大家好,我是Ai学习的老章
周末温故知新一下,看看神经网络强大背后美妙的数学原理
首先,我们来形式化经典的监督学习任务!
假设我们有一个数据集 D,其中 xₖ 是数据点,yₖ 是真实标签。
任务仅仅是找到一个函数 g(x),使得
• g(xₖ) 近似等于 yₖ,
• 并且 g(x) 在计算上是可行的。
为了实现这一点,我们固定一个带参数的函数族。
例如,线性回归就使用了这个函数族:
如果我们假设存在一个真实的底层函数 f(x),它描述了 xₖ 与 yₖ 之间的关系,那么问题就可以表述为一个函数逼近问题: “我们如何在参数化函数族中找到与 f(x) 最接近的函数?”
什么是逼近理论? 下面是一个入门讲解。看看正弦函数,它是用直角三角形来定义的。 除了像 x = π/4 这样少数几个特例,实际上根本无法计算。
为什么? 因为正弦函数是一个超越函数,也就是说你无法通过有限次加法和乘法算出它的值。然而,当你把 sin(2.123) 敲进计算器时,你却能得到一个答案。 这是通过近似完成的。
在 n = 2 的情况下,它是一个五次多项式。 这已经是一个很好的近似了,尽管仅在区间 [-2, 2] 上。
让我们重新审视监督学习的问题! 假设函数 f(x) 描述了数据与观测之间的真实关系。 f(x) 并不完全已知,仅在若干点 xₖ 上已知,其中 f(xₖ) = yₖ。
我们的任务是找到一个逼近函数 g(x),使得
拟合数据,
能够正确地泛化到未见样本
并且在计算上是可行的。
用逼近论的语言来说,我们希望找到一个最小化所谓上确界范数的函数。
|| f - g || 越小,拟合效果就越好。
因此,我们的目标是在参数空间上尽可能小。
你可以把 || f - g || 想象成:把这两个函数画出来,给它们围成的区域上色,然后计算该区域沿 y 轴的最大延伸。
从数学上讲,具有单个隐藏层的神经网络由以下函数定义。
(N 表示隐藏层中的神经元数量; 是一个非线性函数,如 Sigmoid;wᵢ 和 bᵢ 是向量,而 vᵢ 是实数。)
为清晰起见,这是一个具有四个隐藏神经元的单层神经网络的图形表示。
单层神经网络是否足够表达,以逼近任何合理的函数? 是的。这就是通用近似定理。我们来拆解它。 (来源:Cybenko, G. (1989) "Approximations by superpositions of sigmoidal functions".)
第一步。 固定一个较小的 ε,并在待学习的函数 f(x) 周围绘制一条 ε 宽的带状区域。 ε 越小,结果就越好。
第二步。(最难的部分。) 找到一个始终位于条纹内的神经网络。这真的可能吗?是的:定理保证了它的存在。 这就是为什么神经网络被称为通用逼近器。
不幸的是,有几个严重的问题。
该定理并未告诉我们如何找到这样的神经网络。
神经元数量可能非常高。
我们在实际中无法测量上确界范数。
因此,仅仅证明了通用近似定理后,我们还不能就此高枕无忧。 大部分工作还在前方:在实践中找到一个良好的近似、避免过拟合,以及诸多其他问题。
来源:https://x.com/TivadarDanka/status/1963602982660169876
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.