网易首页 > 网易科技 > 网易科技 > 正文

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

0
分享至

3月25日消息,一项新的研究认为,大语言模型性能的显著提升并不令人意外,也并非无法预测,实际上这是由我们衡量人工智能性能的方式所决定的。

两年前,450位研究人员在一个名为超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench)的项目中,编制了一份包含204项任务的清单,旨在测试ChatGPT等聊天机器人背后的大语言模型的性能。在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升——即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。

研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。

然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”

研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集——包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。

这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。

例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。

但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。

因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”

科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(Rylan Schaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。

尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。

人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”

即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”

这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰)

延伸阅读
相关推荐
热点推荐
枢密院十号:福建舰海试归来,要注意看这些细节!

枢密院十号:福建舰海试归来,要注意看这些细节!

环球网资讯
2024-05-08 23:35:26
富士康有多重要?河南的出口给出了答案,无可替代?

富士康有多重要?河南的出口给出了答案,无可替代?

柏铭锐谈
2024-05-09 13:34:13
到底划不划算?沙特当年斥资35亿美元购买中国东风-3导弹,值吗?

到底划不划算?沙特当年斥资35亿美元购买中国东风-3导弹,值吗?

战火深度
2024-05-09 16:00:03
杜锋调整12人大名单!带上神射手,能否成为奇兵?

杜锋调整12人大名单!带上神射手,能否成为奇兵?

阳光情感shuo
2024-05-10 05:50:07
极氪今晚纽交所上市:募资超4美元 宁德时代与Mobileye加持

极氪今晚纽交所上市:募资超4美元 宁德时代与Mobileye加持

雷递
2024-05-10 13:13:47
台媒曝大S将创立个人包包潮牌,由具俊晔亲手制作,网友一片吐槽

台媒曝大S将创立个人包包潮牌,由具俊晔亲手制作,网友一片吐槽

古希腊掌管月桂的神
2024-05-10 11:05:36
胆大包天!四川两男子趁假期用泥鳅钓鱼,被抓后以为放假“没人”

胆大包天!四川两男子趁假期用泥鳅钓鱼,被抓后以为放假“没人”

娱乐小可爱蛙
2024-05-10 07:05:23
南部战区出手!美菲击沉“中国军舰”,055大驱在南海开火

南部战区出手!美菲击沉“中国军舰”,055大驱在南海开火

笔墨V
2024-05-10 00:53:46
中国人真是太有才了,搞出了个劳务派遣公司,说白了就是个中介

中国人真是太有才了,搞出了个劳务派遣公司,说白了就是个中介

科学发掘
2024-05-08 21:07:26
什么?岛国片界四十岁的顶级熟女演员,人妻感十足,经验丰富?

什么?岛国片界四十岁的顶级熟女演员,人妻感十足,经验丰富?

不二砖家
2024-05-09 17:54:07
今晚中央5套22:00-24:00现场直播大满贯赛!国乒夺冠王楚钦孙颖莎

今晚中央5套22:00-24:00现场直播大满贯赛!国乒夺冠王楚钦孙颖莎

林子说事
2024-05-10 03:56:59
爆冷,1-4惨败,世界第5还吃到黄牌:输球输人?韩国名将守住希望

爆冷,1-4惨败,世界第5还吃到黄牌:输球输人?韩国名将守住希望

草根体育
2024-05-09 23:06:24
爱国的流量,泼天的富贵

爱国的流量,泼天的富贵

林孤小姐
2024-05-09 13:23:04
王思聪咋胖成这样了!小女友相伴,他疲态尽显,手扶栏杆

王思聪咋胖成这样了!小女友相伴,他疲态尽显,手扶栏杆

旧时光老师
2024-05-08 22:08:01
留不住富人,留不住人才,搞活经济只能是空谈和嘴硬!

留不住富人,留不住人才,搞活经济只能是空谈和嘴硬!

世态言凉
2024-05-08 10:07:11
重庆市有一套顶层复式房第三次拍卖,价格降到239.2万元也没人要

重庆市有一套顶层复式房第三次拍卖,价格降到239.2万元也没人要

姑获鸟
2024-05-10 10:00:03
世体:何塞卢已拿到最低进球奖金;皇马会将其买断

世体:何塞卢已拿到最低进球奖金;皇马会将其买断

懂球帝
2024-05-09 19:12:19
北京朝阳区东北部将再添三条城市支路,预计10月底完工

北京朝阳区东北部将再添三条城市支路,预计10月底完工

新京报
2024-05-09 12:40:16
8.5,美国的通胀不负众望的炸了,美联储票委应声嘹亮降成必然

8.5,美国的通胀不负众望的炸了,美联储票委应声嘹亮降成必然

潮汕女人会做饭呀
2024-05-09 23:14:56
蒂姆·库克穿上为iPad发布会定制的耐克运动鞋

蒂姆·库克穿上为iPad发布会定制的耐克运动鞋

cnBeta.COM
2024-05-08 12:38:07
2024-05-10 16:48:49

科技要闻

李彦宏评璩静:优秀员工才代表真实的百度

头条要闻

菲国家安全顾问呼吁驱逐中国外交官 中方:菲方心虚了

头条要闻

菲国家安全顾问呼吁驱逐中国外交官 中方:菲方心虚了

体育要闻

太阳离队第一人,1年就赚5年的钱,真香!

娱乐要闻

高亚麟终于回复!称女方爆料毁掉自己

财经要闻

北大徐高:我担心未来几年房价会大涨

汽车要闻

限时4.59万 续航200公里 吉利熊猫卡丁正式上市

态度原创

时尚
教育
健康
公开课
军事航空

上了年纪的男人,“正式场合”打扮切记:衣不花、发要短、鞋简约

教育要闻

《留学》环球资讯:中方延长12国短期来华免签政策,TikTok与字节跳动共同起诉美国政府

春天野菜不知不识莫乱吃

公开课

父亲年龄越大孩子越不聪明?

军事要闻

以色列官员:停火谈判破裂 以军将继续在拉法发动进攻

无障碍浏览 进入关怀版
×