斯坦福大学揭秘」大型语言模型"涌现能力"真相:或许只是统计把戏|数学|吴恩达|人工智能

斯坦福大学揭秘」大型语言模型"涌现能力"真相:或许只是统计把戏

2024-03-11 13:36:10　来源: AI寒武纪

江苏举报

分享至

本文为936字，建议阅读2分钟

大型语言模型展现出"涌现能力" —— 即较小规模的模型所没有的能力,会在模型规模增大到一定程度时突然出现。这种突现能力引人注目,有两个原因:一是它的突兀性,从无到有似乎是一夜之间发生的转变;二是它的难以预测性,这些能力会在看似难以预料的模型规模下突然浮现

NeurIPS 杰出论文奖得主，斯坦福大学研究人员的论文《大型语言模型的涌现能力是海市蜃楼吗？(作者：@RylanSchaeffer , @BrandoHablando , @sanmikoyejo ）

研究了大型语言模型的涌现特性，并得出结论：

对于特定任务和模型系列,所谓的涌现能力其实是由研究人员选择的评估指标造成的,而不是由于大规模导致的模型行为发生了根本变化。具体来说,非线性或不连续的指标会产生明显的涌现能力现象,而线性或连续的指标则会显示出模型性能的平滑、连续和可预测的提升

研究人员用一个简单的数学模型阐述了他们的解释,并通过三种方式对此进行了验证:

(1)使用OpenAI的InstructGPT/GPT-3模型系列在此前被认为存在涌现能力的任务上进行实证测试,发现改变评估指标就能消除这种现象

(2)对BenchBig等公开数据集上的突现能力现象进行元分析,也验证了指标的选择是关键因素

(3)通过有意识地改变指标,在多个视觉任务上的不同深度网络中人为诱发从未见过的"涌现能力"

通过以上三种分析,研究人员提供了证据,表明所谓的涌现能力在改变评估指标或使用更好的统计方法后就会消失,它可能不是人工智能模型进阶的一个根本性特征

该论文的作者指出,他们的发现有几个重要含义:

一是在构建基准测试时,任务本身和评估指标是两个有意义的选择

二是在选择指标时,需要考虑其对单词误差率的影响,并相应地调整评估过程,避免得出无效的科学结论

三是在声称大规模模型具有某些新能力时,需要做适当控制以避免多重比较问题

四是公开模型和输出结果,有助于科学界进行独立审视和评估

结语

吴恩达对这项研究的评论：当我们实现 AGI 时，它将会慢慢到来，而不是一蹴而就

当很多人突然意识到某项技术（也许是发展已久的技术）时，公众的认知会出现不连续性，从而带来惊喜。但人工智能能力的增长比人们想象的更加持续。这就是为什么我们期望通往 AGI 的道路是一条包含无数前进步骤的道路，从而逐步提高我们系统的智能程度

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

斯坦福大学揭秘」大型语言模型"涌现能力"真相:或许只是统计把戏

狂揽1100亿美元！OpenAI再创融资神话

伊朗媒体公布反击美军军事行动结果

伊朗媒体公布反击美军军事行动结果

球队主力全报销？顶风摆烂演都不演了

周杰伦儿子正面照曝光，与父亲好像

冲突爆发 市场变天？

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

津南好·四时总相宜

滨江九小也来了！集齐海侨北+哈罗、寰岛...江东教育要炸了！

初三不安排春假，最多可连休10天！一地率先公布！

惊艳！这位天使般的女子与油画让人心动不已！

冲突爆发市场变天？

岚图泰山黑武士版3月上市搭载华为四激光智驾方案