网易首页 > 网易号 > 正文 申请入驻

他们在1993年就提出了Scaling Law

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

原来,Scaling Law在32年前就被提出了!

不是2020年的OpenAI、不是2017年的百度,而是1993年的贝尔实验室。



在一篇名为《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一种预测方法:

训练误差和测试误差随训练规模增加,都会收敛到同一个渐近误差值,这种收敛符合幂律形式。

通过这种方法,研究人员可以预测模型在更大数据集上的表现。



这和现在大家常提的Scaling Law几乎一致:

在合理的范围内,通过简单地增加模型参数量(N)、训练数据量(D)和计算量(FLOPS,C),可以以一种可预测的、平滑的方式显著提升模型性能。

而1993年的这篇论文来头也不小,作者一共5位,其中包含了支持向量机的提出者Vladimir Vapnik和Corinna Cortes。



为省算力提出预测曲线

这篇论文的研究初衷是为了节省训练分类器(classifiers)的计算资源(果然啥时候都缺算力)。

当时的机器学习算法能实现将输入数据分配到某个类别里,比如输入一张手写数字的像素点,判断它是不是某一个数组。

为了让分类器更可靠,往往需要使用大规模数据库训练。但是研究人员并不确定分类器是否适合给定任务,因此开发高效的预测程序非常有必要。

这项研究就是提出了一种预测方法,先在中等规模的数据集上训练,然后通过提出的学习曲线建模外推,预测其在大数据集上的表现。这样就不用对分类器进行完整训练,从而节省计算资源。

它首先在几个中等规模训练集上分别计算测试误差、训练误差,然后他们发现,随着训练集的规模变大,训练误差和测试误差都会收敛到一个相同的渐近值a,这个指数a在0.5-1之间。



  • a:渐近误差(最终无法消除的误差,比如任务不可实现性导致的残余错误)。
  • b,c:幅度参数。
  • α:收敛速率指数(通常在 0.5~1 之间)

然后变换为对数线性关系,在对数坐标下得到两条直线。



通过拟合这两条直线能得到a,b,α。

将估计出的幂律曲线外推到更大的训练集规模上(比如60000),预测分类器在完整数据上的误差。

实验结果表明,在线性分类器(布尔分类任务)中预测非常准确。



在多层神经网络(如LeNet)中,即便在任务不可实现(non-realizable)的情况下,外推结果也能很好地预测大规模训练的最终表现。

比如仅用12000样本训练,就能预测新CNN在60000样本上会优于旧CNN。



此外作者还发现,任务越困难,渐近误差越高,收敛速率越小,即学习越慢。



这个理论放在当时可以用来淘汰差的模型,将有限的计算资源放在更值得训练的模型上。

作者也是支持向量机提出者

最后不得不提一下这篇研究的几位作者。

首先来看Vladimir Vapnik,他因在统计学习理论和支持向量机方面的贡献而闻名。



他于1958年在乌兹别克国立大学获得数学硕士学位,并于1964年在莫斯科控制科学研究所获得统计学博士学位。1961年至1990年期间,他一直在该研究所工作,并担任计算机科学研究部门的负责人。

Vapnik与Alexey Chervonenkis在1960年至1990年间共同开发了Vapnik-Chervonenkis理论(也称为VC理论)。该理论是计算学习理论的一种形式,旨在从统计学角度解释学习过程。

它是统计学习理论的基石,为学习算法的泛化条件提供了理论基础,并量化了模型的复杂性(通过VC维)。VC理论在无需定义任何先验分布的情况下,为机器学习提供了一种更通用的方法,与贝叶斯理论形成了对比。

同时Vapnik也是支持向量机(SVM)的主要发明者。这是一种监督学习模型,用于数据分类和回归分析。1964年,Vapnik和Chervonenkis首次提出了原始的SVM算法。

1990年代,Vapnik加入贝尔实验室开始进行机器学习方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通过应用“核技巧”(kernel trick)来创建非线性分类器的方法,极大地扩展了SVM的应用范围,使其能够处理非线性可分问题。

1995年Vapnik和Corinna Cortes提出了软边距的非线性SVM并将其应用于手写字符识别问题,因为性能表现出色,这篇论文引发广泛关注,也成为机器学习发展中的一块重要基石。



他撰写的《统计学理论的本质》也是机器学习领域的必读著作之一。

以及他2014年还给Facebook当过顾问。



另一位重要作者是Corinna Cortes。她现在是Google Research纽约分部的副总裁,负责广泛的理论和应用大规模机器学习问题研究。

她于1989年在哥本哈根大学尼尔斯·玻尔研究所获得物理学硕士学位。随后,她于1993年在罗切斯特大学获得计算机科学博士学位。

在加入Google之前,Cortes在贝尔实验室工作了十多年。

2022年她被任命为ACM Fellow,以表彰她对机器学习领域的贡献。



其余几位作者分别是:L. D. Jackel、Sara A. Solla和John S. Denker

其中John S. Denker还和LeCun在手写识别上合作过多篇论文,也都是机器学习经典大作了。





而他本人也相当全能,涉猎领域包括机器学习、系统安全、好莱坞特效、电子游戏和视频游戏等,完成了很多开创性工作。还曾在加州理工学院创建并教授“微处理器设计”课程(硅谷之所以成为硅谷,和当时美国高校中开始推行芯片设计课程有很大关系)。

甚至,他还是一个飞行员,是FFA的航空安全顾问,并写了一本对飞行原理解释透彻的行业教科书。

Denker还曾于1986-87年担任加州大学圣巴巴拉分校理论物理研究所的访问教授。 他以幽默感和“原型疯狂科学家”的形象而闻名,他的一些事迹甚至在一些电影中有所体现。



One More Thing

值得一提的是,卷积神经网络和支持向量机都诞生于贝尔实验室。它们之间过一段“分庭抗礼”的时期。

在深度学习兴起之前,CNN因为“黑盒”以及需要大规模训练,一些研究者对其持有保留态度;相比之下支持向量机的理论清晰、易于收敛到全局最优解。到底谁是正确路线?一时争论不休。

1995年,Vapnik还和当时的上司Larry Jackel以一顿豪华晚餐打赌,到2000年时,人们能不能解释清楚大型神经网络为什么在大规模训练中表现很好?

Vapnik觉得不能。2000年他赢了;随后他们又赌,再过5年结果如何?这一次Vapnik错了:

在2005年任何头脑清醒的人都不会再用和1995年时完全相同的模型了。

这场赌局,LeCun是见证人。



论文地址:
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf


[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天网恢恢!表面是热心公益的华人会长,其实是绑架杀人,无恶不作

天网恢恢!表面是热心公益的华人会长,其实是绑架杀人,无恶不作

不与世俗同
2026-01-08 11:11:38
看到委内瑞拉的情况,李显龙在怕什么?

看到委内瑞拉的情况,李显龙在怕什么?

新民周刊
2026-01-09 09:09:48
又一行业没落!曾是世界第一,如今18家大国企几乎全军覆没

又一行业没落!曾是世界第一,如今18家大国企几乎全军覆没

朔方瞭望
2026-01-08 09:50:55
电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

星空区块链
2026-01-07 21:14:37
洗澡可能影响寿命!医生再次提醒:51岁以后,牢记洗澡“4不要”

洗澡可能影响寿命!医生再次提醒:51岁以后,牢记洗澡“4不要”

39健康网
2026-01-08 20:18:51
港媒突然曝料澳门赌业大亨“洗米华”与千亿电诈头目存在巨额交易!陈志1000多亿资产被封,美国“偷走”九成

港媒突然曝料澳门赌业大亨“洗米华”与千亿电诈头目存在巨额交易!陈志1000多亿资产被封,美国“偷走”九成

澳门月刊
2026-01-09 09:18:41
四川高县一村支书暴打残疾村妇致轻伤二级!法院:免于刑事处罚!

四川高县一村支书暴打残疾村妇致轻伤二级!法院:免于刑事处罚!

兵叔评说
2026-01-07 12:13:15
中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

西虹市闲话
2026-01-08 13:51:18
专家脸被打肿!2025年油车销量逆势暴涨,车主:终于明白了!

专家脸被打肿!2025年油车销量逆势暴涨,车主:终于明白了!

老特有话说
2026-01-07 00:30:03
全球用户大面积中招:鼠标突然就“坏了”!不少人按到“手抽筋”,重装卸载也不管用,罗技回应

全球用户大面积中招:鼠标突然就“坏了”!不少人按到“手抽筋”,重装卸载也不管用,罗技回应

每日经济新闻
2026-01-08 20:15:12
苦等2小时,官方:公牛主场对热火一战因球场出现水渍而延期

苦等2小时,官方:公牛主场对热火一战因球场出现水渍而延期

懂球帝
2026-01-09 11:00:00
美军狂追18天,最后一刻抢下俄超级油轮,俄海军终究晚来一步

美军狂追18天,最后一刻抢下俄超级油轮,俄海军终究晚来一步

军机Talk
2026-01-08 10:41:44
研究生教成人骑车2年赚27万元 当事人:市场需求大

研究生教成人骑车2年赚27万元 当事人:市场需求大

大象新闻
2026-01-09 08:13:04
伊朗巨变前夜

伊朗巨变前夜

凤眼论
2026-01-08 10:31:08
放过保时捷,咱换一家抄好不好?

放过保时捷,咱换一家抄好不好?

爱范儿
2026-01-08 18:16:20
朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

米君文史
2026-01-07 10:01:47
美军7人负伤,古巴特种兵无人生还!委内瑞拉送美国数千万桶石油

美军7人负伤,古巴特种兵无人生还!委内瑞拉送美国数千万桶石油

鹰眼Defence
2026-01-08 17:44:29
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
网传某国产操作系统大厂老董开除核心工程师,理由竟是 “没穿西装”

网传某国产操作系统大厂老董开除核心工程师,理由竟是 “没穿西装”

可达鸭面面观
2026-01-08 19:48:13
男子与女友吵架飙车泄愤,情绪失控撞死1家3口,细节曝光:两人当时在讨论鹦鹉学舌

男子与女友吵架飙车泄愤,情绪失控撞死1家3口,细节曝光:两人当时在讨论鹦鹉学舌

极目新闻
2026-01-08 23:58:28
2026-01-09 11:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
11989文章数 176356关注度
往期回顾 全部

科技要闻

17.68万起售!何小鹏一口气发了4款车

头条要闻

12岁男孩在温泉池溺水身亡 父亲:身高1.4米水深1.1米

头条要闻

12岁男孩在温泉池溺水身亡 父亲:身高1.4米水深1.1米

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

上汽大众首款“9系旗舰” ID. ERA 9X实车曝光

态度原创

亲子
家居
健康
教育
公开课

亲子要闻

真服了,一个女子怀孕了八个月了,去饭店,又喝啤酒,又抽烟

家居要闻

木色留白 演绎现代自由

这些新疗法,让化疗不再那么痛苦

教育要闻

同一App差评好评吵翻!学生喊下架,家长却疯狂囤攻略

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版