网易首页 > 网易号 > 正文 申请入驻

从80个模型构建Scaling Law:华人博士生新作,思维链提出者力荐

0
分享至

机器之心报道

编辑:小舟、陈萍

在 AI 领域,扩展定律(Scaling laws)是理解 LM 扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

但不幸的是,扩展分析在许多基准测试和后训练研究中并不常见,因为大多数研究人员没有计算资源来从头开始构建扩展法则,并且开放模型的训练尺度太少,无法进行可靠的扩展预测。

来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法:可观察的扩展定律(Observational Scaling Laws),其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来,而不是像标准计算扩展规律那样仅在单个系列内。

该方法绕过了模型训练,而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题,从多个模型族构建单一扩展定律面临巨大的挑战,原因在于不同模型之间的训练计算效率和能力存在很大差异。

尽管如此,该研究表明,这些变化与一个简单的、广义的扩展定律是一致的,在这个定律中,语言模型性能是低维能力空间(low-dimensional capability space)的函数,而整个模型系列仅在将训练计算转换为能力的效率上有所不同。

使用上述方法,该研究展示了许多其他类型的扩展研究具有惊人的可预测性,他们发现:一些涌现现象遵循平滑的 sigmoidal 行为,并且可以从小模型中预测;像 GPT-4 这样的智能体性能可以从更简单的非智能体基准中精确预测。此外,该研究还展示了如何预测后训练干预措施(如思维链)对模型的影响。

研究表明,即使仅使用小型 sub-GPT-3 模型进行拟合,可观察的扩展定律也能准确预测复杂现象,例如涌现能力、智能体性能和后训练方法的扩展(例如思维链)。



  • 论文地址:https://arxiv.org/pdf/2405.10938
  • 论文标题:Observational Scaling Laws and the Predictability of Language Model Performance

论文作者共有三位,其中 Yangjun Ruan 为华人作者 ,他本科毕业于浙江大学。

这篇论文也得到了思维链提出者 Jason Wei 的转发评论,Jason Wei 表示,他非常喜欢这项研究。



论文介绍

该研究观察到目前存在数百个开放模型,这些模型拥有不同的规模和能力。不过研究者不能直接使用这些模型来计算扩展定律(因为模型族之间的训练计算效率差异很大),但研究者希望存在一个适用于模型族的更通用的扩展定律。

特别是,本文假设 LM 的下游性能是低维能力空间(例如自然语言理解、推理和代码生成)函数,模型族的变化仅仅在于它们将训练计算转换为这些能力的效率。如果这种关系成立,则意味着从低维能力到跨模型族的下游能力存在对数线性关系(这将允许研究者利用现有模型建立扩展定律)(图 1)。该研究使用近 80 个公开可用的 LM 获得了低成本、高分辨率的扩展预测 (右)。



通过对标准的 LM 基准分析(例如,Open LLM Leaderboard ),研究者发现了一些这样的能力度量, 这些度量在模型家族内部与计算量之间存在扩展定律关系(R^2 > 0.9)(见下图 3),并且在不同模型家族与下游指标上也存在这种关系。本文将这种扩展关系称为可观察的扩展定律。

最后,该研究表明使用可观察的扩展定律成本低且简单,因为有一些系列模型足以复制该研究的许多核心发现。通过这种方法,该研究发现只需评估 10-20 个模型就可以轻松地对基准和后训练干预进行扩展预测。



涌现能力

关于 LM 是否在某些计算阈值下具有不连续出现的「涌现」能力,以及这些能力是否可以使用小模型进行预测,一直存在着激烈的争论。可观察的扩展定律表明,其中一些现象遵循平滑的 S 形曲线,并且可以使用小型 sub Llama-2 7B 模型进行准确预测。





智能体能力

该研究表明,正如 AgentBench 和 AgentBoard 所测量的,LM 作为智能体的更高级、更复杂的能力可以使用可观察的扩展定律来预测。通过可观察的扩展定律,该研究仅使用较弱的模型(sub GPT-3.5)就能精确预测 GPT-4 的性能,并将编程能力确定为驱动智能体性能的因素。

后训练方法扩展

该研究表明,即使将扩展定律拟合到较弱的模型(sub Llama-2 7B)上,扩展定律也可以可靠地预测后训练方法的收益,例如思维链(Chain-of-Thought)、自洽性(Self-Consistency)等等。

总的来说,该研究的贡献是提出可观察的扩展定律,利用了计算、简单能力度量和复杂下游指标之间可预测的对数线性关系。

验证可观察的扩展定律

研究者通过实验验证了这些扩展定律的有用性。此外,在论文发布后,研究者还预注册了对未来模型的预测,以测试扩展定律是否对当前的模型过拟合。关于实现过程和收集数据的相关代码已在 GitHub 上放出:

GitHub 地址:https://github.com/ryoungj/ObsScaling

涌现能力的可预测性

下图 4 展示了使用 PC(principal capability)度量的预测结果,以及基于训练 FLOPs 来预测性能的基线结果。可以发现,即使仅仅使用性能不佳的模型,也可以使用本文的 PC 度量来准确预测这些能力。

相反,使用训练 FLOPs 会导致测试集上的外推效果和训练集上的拟合效果明显更差,正如更高的 MSE 值所示。这些差异可能是由不同模型系列的训练 FLOPs 导致的。



智能体能力可预测性

下图 5 展示了使用 PC 度量后,可观察的扩展定律的预测结果。可以发现,在两个智能体基准上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的性能可以从更弱性能(10% 以上的差距)的模型中准确地预测出。

这表明 LMs 的更复杂智能体能力与它们的基础模型能力息息相关,并能够基于后者进行预测。这也说明了随着基干 LMs 持续扩展规模,基于 LM 的智能体能力具有良好的扩展特性。



后训练技术的影响

下图 6a 展示了使用可观察的扩展定律,CoT 和 SC(Self-Consistency,自洽性)的扩展预测结果。可以发现,使用 CoT 和 CoT+SC 但不使用(Naive)后训练技术的更强、规模更大模型的性能可以从更弱、更小计算规模(比如模型大小和训练 FLOPs)的模型中准确预测出。

值得注意的是,两种技术之间的扩展趋势不同,其中与使用 CoT 的自洽性相比,CoT 表现出更明显的扩展趋势。



更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
御姐风!太高级!要不起的感觉

御姐风!太高级!要不起的感觉

梧州生活宝
2024-05-22 23:14:03
尿毒症是喝出来的?医生告诫:即便是铁打的肾,这3种水也要少喝

尿毒症是喝出来的?医生告诫:即便是铁打的肾,这3种水也要少喝

莫将离
2024-06-01 23:41:40
破案了!龚翔宇痛哭真相大白,知情人揭内情,球迷错怪教练蔡斌了

破案了!龚翔宇痛哭真相大白,知情人揭内情,球迷错怪教练蔡斌了

娱记掌门
2024-06-16 21:52:03
50年石油美元协议到期 沙特:不再续约

50年石油美元协议到期 沙特:不再续约

南方都市报
2024-06-16 07:03:39
女模特私密视频意外泄露遭疯狂传播,本人崩溃痛哭,恳求不要观看

女模特私密视频意外泄露遭疯狂传播,本人崩溃痛哭,恳求不要观看

吃鱼思故渊
2024-05-17 22:00:37
深夜11点,蔡斌霸气表态,朱婷伤病最新情况,100万球迷安心了!

深夜11点,蔡斌霸气表态,朱婷伤病最新情况,100万球迷安心了!

体坛猪八戒
2024-06-16 23:46:59
打败美元的不是人民币,而是电动汽车?73%石油进口的我们没退路

打败美元的不是人民币,而是电动汽车?73%石油进口的我们没退路

股海风云大作手
2024-06-15 18:28:27
从朝鲜归来,有些大实话不得不讲!

从朝鲜归来,有些大实话不得不讲!

李砍柴
2024-04-21 23:53:00
深夜12点!桑尼宣布,拿下中国第一个代言大单,点名称赞国足一哥

深夜12点!桑尼宣布,拿下中国第一个代言大单,点名称赞国足一哥

元爸体育
2024-06-16 16:04:46
再见,伦纳德!可能又不打了!这可是全世界唯一超级球队……

再见,伦纳德!可能又不打了!这可是全世界唯一超级球队……

篮球实战宝典
2024-06-16 14:38:44
173个美贸易协会致信拜登:调高对华关税,要三思啊

173个美贸易协会致信拜登:调高对华关税,要三思啊

观察者网
2024-06-16 16:14:04
刘亦菲新剧播出后,她与陈金飞旧事再被扒,两人很多黑历史被挖出

刘亦菲新剧播出后,她与陈金飞旧事再被扒,两人很多黑历史被挖出

花哥扒娱乐
2024-06-15 23:23:16
网友问孙兴慜说了啥?王大雷调侃回复:他说他对不起中国人民

网友问孙兴慜说了啥?王大雷调侃回复:他说他对不起中国人民

懂球帝
2024-06-16 16:10:44
背靠背夺冠!张本智和、早田希娜恶战5局险胜,连续2站比赛登顶

背靠背夺冠!张本智和、早田希娜恶战5局险胜,连续2站比赛登顶

全言作品
2024-06-16 22:51:56
玫瑰的故事:刘亦菲的瘪臀、粗腰、粗腿,是对内娱畸形审美的反击

玫瑰的故事:刘亦菲的瘪臀、粗腰、粗腿,是对内娱畸形审美的反击

喵喵娱乐团
2024-06-14 17:56:07
女生私密「小花瓣」形状到底什么样,才算正常

女生私密「小花瓣」形状到底什么样,才算正常

水白头
2024-06-15 01:35:03
意大利大美妞总理毫不含糊,若俄不同意和平条件,就迫使其投降

意大利大美妞总理毫不含糊,若俄不同意和平条件,就迫使其投降

刀刀说事
2024-06-16 21:49:34
中国人不骗中国人,TikTok上建盏开窑直播间忽悠老外,评论笑死

中国人不骗中国人,TikTok上建盏开窑直播间忽悠老外,评论笑死

猫小狸同学
2024-06-16 17:42:44
社保被查!税务局动真格的了!6月起,这3种行为,可不能再有了!

社保被查!税务局动真格的了!6月起,这3种行为,可不能再有了!

学税
2024-06-16 19:17:27
鲁能刚战平梅州客家,崔康熙就敲定夏窗6人离队名单,陈蒲领衔

鲁能刚战平梅州客家,崔康熙就敲定夏窗6人离队名单,陈蒲领衔

宝哥精彩赛事
2024-06-16 23:02:38
2024-06-17 04:42:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9081文章数 141943关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

手机
健康
教育
游戏
公开课

手机要闻

荣耀X60i入网:配置全面升级,能否满足你的所有期待?

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

北京高考阅卷进行中,语文已有多篇作文有望拿满分!

梦幻西游玩家炸出160愤怒水清腰带,西栅为服战连夜换“网吧”?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版