网易首页 > 网易科技 > 网易科技 > 正文

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

0
分享至

3月25日消息,一项新的研究认为,大语言模型性能的显著提升并不令人意外,也并非无法预测,实际上这是由我们衡量人工智能性能的方式所决定的。

两年前,450位研究人员在一个名为超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench)的项目中,编制了一份包含204项任务的清单,旨在测试ChatGPT等聊天机器人背后的大语言模型的性能。在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升——即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。

研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。

然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”

研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集——包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。

这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。

例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。

但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。

因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”

科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(Rylan Schaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。

尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。

人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”

即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”

这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰)

延伸阅读
相关推荐
热点推荐
安帅:不会让拉菲尼亚踢中锋,他的纵深突击能力全世界最强

安帅:不会让拉菲尼亚踢中锋,他的纵深突击能力全世界最强

懂球帝
2026-06-01 22:09:08
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
海昏侯墓只是冰山一角:西汉真正的天价黄金,大多还埋在地下

海昏侯墓只是冰山一角:西汉真正的天价黄金,大多还埋在地下

芊芊子吟
2026-05-30 23:35:03
既不是正处,也不是副厅,却能坐主席台:高校“校长助理”到底是什么级别?

既不是正处,也不是副厅,却能坐主席台:高校“校长助理”到底是什么级别?

教育放大镜
2026-06-01 22:37:12
张维迎和贾平凹在金钱利诱面前很不一样

张维迎和贾平凹在金钱利诱面前很不一样

天水人李成义
2026-05-26 11:30:14
诺基亚首款微聊手机火了!诺基亚200/210 4G卖断货:工厂加班赶工

诺基亚首款微聊手机火了!诺基亚200/210 4G卖断货:工厂加班赶工

快科技
2026-06-01 23:42:07
导弹上膛!中国公布荷兰战舰闯西沙画面,电子干扰原来是最后一步

导弹上膛!中国公布荷兰战舰闯西沙画面,电子干扰原来是最后一步

芳芳历史烩
2026-05-29 11:37:24
世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

平流层散步者
2026-05-27 08:04:47
奚梦瑶何猷君补办婚礼,宴席简单,双方母亲同台,婆婆只戴珍珠链

奚梦瑶何猷君补办婚礼,宴席简单,双方母亲同台,婆婆只戴珍珠链

动物奇奇怪怪
2026-06-02 07:38:46
曼联青睐M费原因揭秘,欲4千万引进被拒!西汉姆要价曝光拒绝贱卖

曼联青睐M费原因揭秘,欲4千万引进被拒!西汉姆要价曝光拒绝贱卖

罗米的曼联博客
2026-06-02 07:24:29
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

好贤观史记
2026-05-29 10:55:39
何猷君深夜高调发文!法国补办婚礼细节曝光,四太举动太暖心!

何猷君深夜高调发文!法国补办婚礼细节曝光,四太举动太暖心!

喜欢历史的阿繁
2026-06-01 19:59:48
中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

混沌录
2026-05-28 22:53:01
美军宣布:已迫使霍尔木兹海峡118艘船改道 国际油价大涨 美油涨近3% 伊朗:无意向美国退让或妥协

美军宣布:已迫使霍尔木兹海峡118艘船改道 国际油价大涨 美油涨近3% 伊朗:无意向美国退让或妥协

每日经济新闻
2026-06-01 16:17:19
《主角》集齐10位秦腔演员,戏曲大神和星二代都来了,真卧虎藏龙

《主角》集齐10位秦腔演员,戏曲大神和星二代都来了,真卧虎藏龙

娱君坠星河
2026-05-31 17:55:12
上海地铁抢座互殴后续:双双被拘只是开胃菜,真正的麻烦还在后头

上海地铁抢座互殴后续:双双被拘只是开胃菜,真正的麻烦还在后头

华庭讲美食
2026-06-02 00:53:06
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现4症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现4症状

叙说医疗健康
2026-06-01 10:00:20
中方通告全球!对菲律宾发布66号公告:马科斯意识到中国动真格了

中方通告全球!对菲律宾发布66号公告:马科斯意识到中国动真格了

漫步独行侠
2026-06-01 08:19:52
大雨、雷暴大风!江苏天气将突变!

大雨、雷暴大风!江苏天气将突变!

江南晚报
2026-06-02 02:44:46
2026-06-02 08:39:00

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了被迫打了一个电话

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

3910亿公募基准调整落地 导致A股大跌?

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

本地
健康
时尚
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

干细胞临床研究向患者收费?别踩坑

安妮海瑟薇40岁后美出新高度, 开挂的关键原来是这个

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版
×