![]()
哈喽,大家好,小圆今天要跟大家深入聊聊当下AI圈最热门也最有争议的话题,就是涌现,当GPT-4能轻松解开复杂数学题,当大语言模型突然解锁写代码、逻辑推理这些技能时,不少人都惊呼AI已经出现“涌现智能”。
但在热闹的惊叹声背后,科学家们却在争论两个更根本的问题:这些看似神奇的能力,真的能算作严格意义上的“涌现”吗?更关键的是,模型的性能变强了,就等同于它变聪明了吗?
![]()
![]()
可能很多人觉得“涌现”是AI领域的新词,其实在复杂科学领域,它已经是个研究多年的概念了,物理学家安德森有句经典论断叫“多者异也”,意思就是当系统规模扩大到一定程度,就会催生出单个组成部分不具备的全新宏观属性。
但大家要注意,真正的涌现可不止“突然变强”这么简单,复杂系统科学家普遍认为,涌现的核心在于粗粒化和有效理论的形成。通俗点说,就是系统能形成一种更简洁、高效的描述方式,不用追踪每个微观细节就能解释整体行为。
![]()
目前学界对涌现的判断有几个核心标准:规模化效应、临界相变、信息压缩、新型基底形成,以及超越训练范围的泛化能力,而争议的焦点,恰恰在于大语言模型展现出的能力是否符合这些标准,模型的所谓“超能力”只是通过海量数据和参数的暴力拟合实现的。
相当于把各种能力编程进模型,本质是工程上的堆砌,算不上真正的涌现,只要模型内部形成了压缩的表征结构,就符合涌现的定义,双方的分歧本质上是对“新属性”的判断标准不同,一方看重内部结构的革新,一方则关注外部性能的突变,这也让这场争论迟迟没有定论。
![]()
![]()
但没过多久,斯坦福大学的研究者就泼来了冷水,他们发现,如果换一种更连续的评估指标,这些所谓的“突变”就会消失,模型的性能提升其实是平滑的,这就意味着,之前被热议的“涌现”,很可能只是评估方法带来的假象。
![]()
它可能只是记住了训练数据中的模式,而非真正理解了背后的规律。目前学界的初步共识是,大模型确实有涌现能力的初步证据,尤其是内部形成压缩表征的案例,但仅凭外部性能提升就宣称存在涌现,还远远不够。
![]()
在讨论大模型的“聪明度”时,很多人都会把涌现能力和涌现智能混为一谈,但实际上两者有着本质区别,简单来说,涌现能力指的是具体的功能性表现,就像我们日常用的计算器,它能做加减乘除、开方积分,功能确实很强大,但没人会说计算器有智能。
![]()
反观当前的大语言模型,更像是无数个高度特化“计算器”的集合,它们靠海量参数和数据的“暴力”拟合,实现了各种令人眼花缭乱的功能,但在概念压缩、类比创造、高效理解这些核心维度,和人类智能还有巨大差距。
语言在大模型训练中的角色,很可能决定了模型能力的上限,目前学界有三种主流猜想:一是语言本身就是对世界近乎完整的压缩表述,包含了物理、社会、因果关系等丰富信息;二是语言反映了内在的“思维语言”结。
![]()
语言是一种无监督的“编程语言”,训练模型的过程就是在给它编程,如果语言真的包含了世界的全部信息,那模型靠扩大规模就能“学会”一切,但这也会削弱“涌现”的含金量,毕竟这只是工程手段的知识拷贝,而非内部产生的新颖结构。
我们究竟是在创造更强大的工具,还是在孕育真正的新型智能?答案或许就藏在更多与更少的辩证关系里,真正的智能从来不是靠参数和数据的“暴力堆砌”实现的,而是通过优雅的压缩和抽象,用最少的代价解决最多的问题。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.