网易首页 > 网易号 > 正文 申请入驻

Scaling Law的有趣新进展

0
分享至

导语

一篇最新来自斯坦福和多伦多大学的论文提出了观察缩放定律,找到了复杂缩放现象的惊人可预测性。

研究领域:AI大模型,规模法则

王庆法| 作者

清熙| 来源

一、缩放定律(Scaling Law)

在AI领域,“缩放定律” 描述了损失如何随着模型和数据集大小变化。

即观察到AI模型的性能与参数量和token量成比例,而这些量由其使用的计算量决定。

因而通常用4个变量来概述神经网络模型:模型大小、训练数据集大小、训练成本和训练后的性能。

这四个变量都可精确定义为实数,并且在统计学上被发现是相互关联的,即所谓的“缩放定律”。

也有人写成:Y = f(X, Z) 其中Y是模型观测性能,X是模型大小,Z是训练数据集大小,f是缩放函数。很直观,中学生都懂。

二、OpenAI 的定义

2020当年名不见经传的OpenAI 定义了神经语言模型的Scaling Law。

论文研究了语言模型在交叉熵损失下的性能经验性缩放定律。

损失与模型大小、数据集大小和用于训练的计算量成指数关系,其中一些趋势跨越了七个数量级的范围。

其他诸如网络宽度或深度等架构细节在较大的范围内影响甚微。

简单的方程控制了过拟合与模型/数据集大小之间的关系,以及训练速度与模型大小之间的关系。

这些关系能够确定在给定计算预算的情况下如何进行最优分配。

较大的模型具有显著更高的样本效率,因此在给定的计算预算下实现最优的计算效率涉及在相对较少的数据上训练非常大的模型。

三、涌现衡量与争议

对缩放定律的信念与坚守,促进了后来ChatGPT的诞生,。

这些能力,LLMs并没有直接训练,数据集中也不含,但快速且不可预测的凭空出现。

甚至跨任务也有涌现,尽管这些任务相对不相关,但所有这些能力都在相似的规模下出现。

然而,评价指标选择的不一致,带来一些争议,其中最有名是来自斯坦福学者的质疑:“”。

笔者的观点:,并不适合用来衡量大模型的语义能力。我们只关心AI在人类关心的任务上的表现。

四、缩放定律数据库

有热心网友搜集整理了不同任务和架构的缩放定律数据库,并对缩放定律文献中的数十篇论文进行了回顾,请参考:

https://docs.google.com/spreadsheets/d/1XHU0uyCojH6daSWEq9d1SHnlrQVW7li8iqBMasawMns/edit?pli=1#gid=0

五、广义缩放定律

研究大模型如何随着计算资源的增加而学习、适应和扩展其功能,对于预测未来能力以及优化训练和部署这些模型所需的资源至关重要。

然而彼时,这几件关于大语言模型的涌现能力还没有很好的研究:

1.我们不知道它们将在什么规模下出现

2.我们不知道直到它们出现时的能力水平

3.我们不知道可能的能力景观

这一困境近期被打破,一篇最新来自斯坦福和多伦多大学的论文提出了观察缩放定律(https://arxiv.org/pdf/2405.10938),找到了复杂缩放现象的惊人可预测性。

研究缩放定律,传统方法需要跨多个尺度进行大量训练,计算上非常昂贵且耗时。观察缩放定律则尝试使用公开可用的模型来构建缩放定律,避免了大量训练的需求。

该方法分析了大约 80 个公开可用的语言模型的性能数据,包括 Open LLM Leaderboard 和标准化基准,例如 MMLU、ARC-C 和 HellaSwag。

通过假设存在一个低秩的语言模型能力空间 ,即笔者上文提到的“人类关心的任务上的表现”;

使用主成分分析 (PCA) 来识别关键能力指标,并将这些指标与计算资源拟合成对数线性关系,也就是能力空间与计算量呈对数线性关系;

进一步可以直接从标准化的语言模型基准测试中预测出来复杂的下游能力,从而使用这近80个公开可用的语言模型获得低成本、高分辨率的缩放预测。

观察缩放定律泛化了现有的计算方式,是一种广义缩放定律。该方法可以准确预测 GPT-4 等先进模型的性能。

观察缩放定律,与各种基准的实际性能表现出高度相关性 (R² > 0.9)。语言理解和推理能力等涌现现象遵循可预测的 S 形(sigmoidal)模式。

结果还表明,观察缩放定律还可以可靠地预测训练后干预措施(如思维链和自我一致性)的影响,在特定任务中表现出高达 20% 的性能提升。

广义缩放定律节省了计算资源并增强了预测模型性能的能力,为研究人员和工程师优化语言模型开发提供了宝贵的工具。

AI By Complexity读书会招募中

大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。

集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起,探究如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?在本质上帮助我们设计更好的AI系统。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!

详情请见:

1.

2.

3.

4.

5.

6.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

知兵
2025-09-14 22:02:52
被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

被央视怒批、摇头晃脑、德不配位,难怪阅兵从不邀请“流量”明星

书雁飞史oh
2025-09-12 16:09:35
媒体人:吴艳妮“亚洲第一”彻底沦为营销,她被日本选手全面压制

媒体人:吴艳妮“亚洲第一”彻底沦为营销,她被日本选手全面压制

直播吧
2025-09-14 17:03:06
省长讲第一课,广东全省市委书记、市长、县委书记、县长集中培训

省长讲第一课,广东全省市委书记、市长、县委书记、县长集中培训

新京报政事儿
2025-09-14 13:32:41
俄将在华发行债券?100多年前的沙俄,曾经在东北发行过纸质卢布

俄将在华发行债券?100多年前的沙俄,曾经在东北发行过纸质卢布

小莜读史
2025-09-14 14:44:36
西贝硬刚罗永浩,卫健委出手了!

西贝硬刚罗永浩,卫健委出手了!

梳子姐
2025-09-13 19:16:39
张文宏呼吁:60岁后千万别做这几项健康检查,做了可能会害你

张文宏呼吁:60岁后千万别做这几项健康检查,做了可能会害你

霹雳炮
2025-09-11 23:13:49
上海下周初还是热,周四开始要降温了

上海下周初还是热,周四开始要降温了

澎湃新闻
2025-09-14 18:22:27
欧盟与俄罗斯都在加急,争抢购买中国同一关键物品,究竟是什么让他们如此着急?

欧盟与俄罗斯都在加急,争抢购买中国同一关键物品,究竟是什么让他们如此着急?

文雅笔墨
2025-09-14 19:31:37
罗永浩向贾国龙重新开战后,深夜发文称希望与其当面直播对话

罗永浩向贾国龙重新开战后,深夜发文称希望与其当面直播对话

极目新闻
2025-09-15 02:05:07
国家点名!这10个地区,被委以重任

国家点名!这10个地区,被委以重任

国民经略
2025-09-12 11:42:38
王毅表态:战争解决不了问题、制裁只会使问题更复杂

王毅表态:战争解决不了问题、制裁只会使问题更复杂

政知新媒体
2025-09-14 12:58:15
山东一中学学生在食堂站着用餐遭质疑,校方回应:一直没座位,都是站着吃

山东一中学学生在食堂站着用餐遭质疑,校方回应:一直没座位,都是站着吃

新晚报
2025-09-13 16:35:47
不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

科普100克克
2025-09-15 02:28:33
全数崩跌,5000万订单成为世界笑柄,订单营销玩不下去了!

全数崩跌,5000万订单成为世界笑柄,订单营销玩不下去了!

柏铭锐谈
2025-09-14 13:12:13
1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

象视汽车
2025-09-14 07:00:13
重磅消息!七国集团财政部长考虑对俄罗斯支持者征收关税!

重磅消息!七国集团财政部长考虑对俄罗斯支持者征收关税!

翻开历史和现实
2025-09-14 16:10:21
妈妈亲手缝的NIKE书包火了!品牌留言要送礼物,当事人:已经联系礼物还未寄到

妈妈亲手缝的NIKE书包火了!品牌留言要送礼物,当事人:已经联系礼物还未寄到

现代快报
2025-09-14 15:13:20
长安首款固态电池来袭:充电10分钟续航1500km!网友:新能源天花板

长安首款固态电池来袭:充电10分钟续航1500km!网友:新能源天花板

刘旷
2025-09-14 15:21:12
9月开学后,整个教育方向都要变了。

9月开学后,整个教育方向都要变了。

玉辞心
2025-09-12 07:19:15
2025-09-15 08:04:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5353文章数 4651关注度
往期回顾 全部

科技要闻

AI眼镜能否成为下一代人机互动的超级入口?

头条要闻

NASA叫嚣美国"一定会在中国之前登月" 前局长当众拆台

头条要闻

NASA叫嚣美国"一定会在中国之前登月" 前局长当众拆台

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

亲子
本地
旅游
公开课
军事航空

亲子要闻

张檬家宝贝Dylan首亮相小区,5个月被吓哭,胆小模样引全网心疼

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版