网易首页 > 网易科技 > 网易科技 > 正文

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

0
分享至

3月25日消息,一项新的研究认为,大语言模型性能的显著提升并不令人意外,也并非无法预测,实际上这是由我们衡量人工智能性能的方式所决定的。

两年前,450位研究人员在一个名为超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench)的项目中,编制了一份包含204项任务的清单,旨在测试ChatGPT等聊天机器人背后的大语言模型的性能。在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升——即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。

研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。

然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”

研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集——包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。

这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。

例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。

但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。

因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”

科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(Rylan Schaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。

尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。

人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”

即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”

这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰)

延伸阅读
相关推荐
热点推荐
泽连斯基:中方助长俄罗斯“侵略”,将对中国公民实施新的制裁

泽连斯基:中方助长俄罗斯“侵略”,将对中国公民实施新的制裁

知法而形
2025-12-23 21:29:34
极氪汽车正式退市,震惊行业!

极氪汽车正式退市,震惊行业!

互联网品牌官
2025-12-24 12:36:49
贵州省总工会原党组成员、副主席梁伟等3人被提起公诉

贵州省总工会原党组成员、副主席梁伟等3人被提起公诉

界面新闻
2025-12-24 16:07:17
南博前院长徐湖平的别墅火了!是民国老宅,每平米价位4万元以上

南博前院长徐湖平的别墅火了!是民国老宅,每平米价位4万元以上

火山詩话
2025-12-24 05:52:38
重要知情人出现!《江南春》是97年陆挺花16万买走,收据系伪造!

重要知情人出现!《江南春》是97年陆挺花16万买走,收据系伪造!

一支破笔半支烟
2025-12-23 21:09:24
一南一北,两大省份宣布“解禁”,什么信号?

一南一北,两大省份宣布“解禁”,什么信号?

西部城市
2025-12-23 17:48:27
抢疯了!各地门店大排长龙,排号炒到400元一个!网友:怎么又火了?

抢疯了!各地门店大排长龙,排号炒到400元一个!网友:怎么又火了?

观威海
2025-12-24 10:14:23
乌军称已从谢韦尔斯克撤出!托卡耶夫:哈萨克斯坦愿为俄乌提供谈判平台

乌军称已从谢韦尔斯克撤出!托卡耶夫:哈萨克斯坦愿为俄乌提供谈判平台

每日经济新闻
2025-12-24 15:56:03
深夜大瓜!曝阚清子生下女儿没保住,没有膀胱和肛门,产前状态差

深夜大瓜!曝阚清子生下女儿没保住,没有膀胱和肛门,产前状态差

阿纂看事
2025-12-24 09:19:51
大收藏家谷牧——

大收藏家谷牧——

跟着老李看世界
2025-12-23 13:26:40
36岁好莱坞童星落魄街头!拒绝食物索要违禁品,自知“我完了”

36岁好莱坞童星落魄街头!拒绝食物索要违禁品,自知“我完了”

译言
2025-12-24 08:58:48
85后韩国财阀千金,在柬埔寨被捕!她被曝为电诈园区洗钱、招揽性交易和贩毒,曾多次因吸毒被判刑

85后韩国财阀千金,在柬埔寨被捕!她被曝为电诈园区洗钱、招揽性交易和贩毒,曾多次因吸毒被判刑

每日经济新闻
2025-12-24 17:22:08
日本的大动作,让中国感到震惊,给了中方一个不得不出手的理由

日本的大动作,让中国感到震惊,给了中方一个不得不出手的理由

吕璐说
2025-12-23 19:03:43
官媒对成龙的称呼变了,三字之差释放强烈信号,王晶的话有人信了

官媒对成龙的称呼变了,三字之差释放强烈信号,王晶的话有人信了

振华观史
2025-12-23 20:24:20
如何看待发送淫秽信息违法?再也看不到院长、主任们的桃色新闻了

如何看待发送淫秽信息违法?再也看不到院长、主任们的桃色新闻了

爆角追踪
2025-12-24 12:37:06
新进展!南博前职工再曝猛料 买“赝品”神秘人扒出 倒卖流程曝光

新进展!南博前职工再曝猛料 买“赝品”神秘人扒出 倒卖流程曝光

社会日日鲜
2025-12-24 06:20:47
曝徐湖平已被带走,前一天晚开了一夜灯,更多谎言被戳穿

曝徐湖平已被带走,前一天晚开了一夜灯,更多谎言被戳穿

古希腊掌管松饼的神
2025-12-24 13:29:23
中央批准,冯忠华履新广州市委书记!本月3个省会(首府)城市市委书记调整

中央批准,冯忠华履新广州市委书记!本月3个省会(首府)城市市委书记调整

上观新闻
2025-12-24 14:12:04
快手疯了?大量直播间直播淫秽视频,还有女主播“袒胸露乳”吸粉无数

快手疯了?大量直播间直播淫秽视频,还有女主播“袒胸露乳”吸粉无数

三言科技
2025-12-23 00:24:15
美国人,已经癫成了所有人看不懂的样子

美国人,已经癫成了所有人看不懂的样子

枫冷慕诗
2025-12-23 17:17:41
2025-12-24 20:03:00

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

果农再次开启"赛博助农":在"魔兽世界"卖3.5万斤橙子

头条要闻

果农再次开启"赛博助农":在"魔兽世界"卖3.5万斤橙子

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

怀孕增重30斤!阚清子惊传诞一女夭折?

财经要闻

重磅!北京市优化调整住房限购政策

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

旅游
亲子
健康
公开课
军事航空

旅游要闻

百项跨年活动点燃申城 元旦假期酒店预订火爆

亲子要闻

过度精细喂养有多可怕?网友:该放手时就放手,适当粗糙没毛病

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

"九三"受阅女民兵:96米需踢出128个正步 每步75厘米

无障碍浏览 进入关怀版
×