![]()
当你读到一个关于狗的故事,然后在公园看到一只真狗时,大脑会立刻建立连接。这看似简单的跨越,对人工智能来说曾经是一道鸿沟。视觉模型在图像中认识狗,语言模型在文本里理解狗,但它们对狗的内部表征是完全不同的数学对象。
然而麻省理工学院的四位研究人员在2024年提出了一个大胆的假说:随着AI模型变得越来越强大,它们正在趋向于一种共享的世界表征方式,就像柏拉图洞穴寓言中的囚徒,虽然看到的只是影子,但所有囚徒最终会意识到影子背后有一个共同的现实世界。
这个被称为柏拉图式表征假说的理论在AI研究界引发了激烈争论。支持者认为这揭示了智能的本质,批评者则质疑研究方法的局限性。但无论立场如何,一个现象已经难以忽视:在不同数据集上训练的不同架构模型,正在学会用越来越相似的方式编码概念。
从文字到图像:神经网络的数学共识
理解这个假说需要先了解AI模型如何表征信息。现代神经网络将每个输入转化为一串数字,这串数字被称为激活向量,代表网络中数千个人工神经元的激活程度。
在抽象的高维空间中,这些向量指向不同方向。相似的概念通常对应相似方向的向量。例如在语言模型中,狗的向量会靠近宠物、吠叫和毛茸茸,而远离柏拉图和糖蜜。这正是英国语言学家弗斯60年前提出的洞见的数学实现:词义取决于它与哪些词同时出现。
![]()
所有人工智能模型对“猫”的表示方式都一样吗? 马克·贝兰/ 《量子杂志》
问题在于不同模型的向量空间无法直接比较。就像两个人用不同语言描述同一幅画,你不能逐字对比,但可以判断他们是否在描述相同的场景。研究人员开发了测量相似性的相似性的方法。纽约大学研究员苏霍卢茨基这样形容这种间接测量。
具体做法是准备一组输入,比如一系列动物词汇:狗、猫、狼、水母。将它们分别输入两个模型,记录各自产生的向量集合。然后比较这两个向量集合的整体几何形状是否相似。如果在两个模型中,猫都与狗接近,水母都远离陆生动物,那么说明它们对动物王国的表征结构有共识。
2010年代中期,研究人员开始系统探索这种表征相似性,发现功能更强的模型往往表现出更高的相似度。2021年的一篇论文将这种现象称为安娜·卡列尼娜情境,借用托尔斯泰小说开篇的名句。幸福的家庭都是相似的,不幸的家庭各有各的不幸。或许成功的AI模型都是相似的,而每个失败的模型都有其独特的失败方式。
跨越数据类型的收敛证据
ChatGPT在2023年初的爆红让整个AI研究界陷入生存危机。当时在OpenAI工作的研究员许敏英回忆说,每个人都在思考为什么简单地扩大模型规模就能让它们在各种任务上表现更好。
她开始与麻省理工学院的菲利普·伊索拉及同事定期会面,探讨规模如何影响内部表征。他们意识到,如果只是用相同数据训练的大模型学到相似表征,这可能只是过拟合训练数据的特殊性。但如果用不同数据类型训练的模型也趋同,那就更有说服力了。
![]()
最近一篇关于人工智能系统的论文受到了希腊哲学家柏拉图的一则寓言的启发。 卡比托利欧博物馆的西拉尼翁
许敏英进行了一项关键实验。他使用维基百科的图片描述数据集,测试了五种视觉模型和十一种不同规模的语言模型。
图片输入视觉模型,文字描述输入语言模型,然后比较两类模型产生的向量聚类模式。结果令人震撼:随着模型能力增强,跨模态的表征相似性稳步上升。一个只见过文字的模型和一个只见过图像的模型,竟然在以越来越相似的方式理解世界。
伊索拉将这个现象与柏拉图2400年前的洞穴寓言联系起来。在那个寓言中,囚徒被困在洞穴里,只能通过墙上的影子认识外部世界。
柏拉图认为我们都是这样的囚徒,感官世界只是理想形式的影子。在AI的语境中,真实世界投射出不同的数据流,有些是图像,有些是文本,有些是声音。每个模型都是只能接触单一数据流的囚徒。但随着模型变得更强大,它们正在透过各自的数据影子,逐渐接近对共同现实的表征。
争议与未来:通往单一模型的道路
并非所有研究者都买账。加州大学伯克利分校的阿列克谢·埃弗罗斯曾指导过麻省理工团队四人中的三人,但他对这个假说持保留态度。他指出许敏英使用的维基百科数据集中图像和文字高度匹配是有意为之,但现实世界的大多数数据具有难以翻译的特征。这就是为什么你会去美术馆而不是只读图录,埃弗罗斯说。视觉体验包含文字无法捕捉的信息维度。
![]()
从右上角顺时针方向:Minyoung Huh、Brian Cheung、Tongzhou Wang 和 Phillip Isola 提出,不同的 AI 模型正在趋向于对其训练数据背后的世界进行共享的“柏拉图式表征”。
从右上角起:Anna Decker;@by.h_official;陈嘉熙;Kris Brewer
实验设计的选择也影响结论。应该关注神经网络的哪一层?从众多数学方法中选择哪种来比较向量集合?测量哪些表征才具有代表性?芝加哥大学的克里斯托弗·沃尔夫拉姆警告说,如果只测试一个数据集,你不知道结果的普适性如何。谁知道使用更奇怪的数据集会发生什么呢?
伊索拉承认这个问题不可能由单篇论文解决。原则上你可以测量模型对任何图片或任何句子的表征,这是个无穷的搜索空间。但他认为寻找普遍规律是科学的本质。我们可以研究模型之间的差异,但这在某种程度上不如找出共同点更有解释力,他说。研究界现在分成两派:一半人认为收敛现象显而易见,另一半认为这显然是错误的。
![]()
阿列克谢·埃弗罗斯认为,人工智能模型之间的差异比相似之处更能说明问题。 Peter DaSilva 为 Quanta 杂志撰稿
这场争论已经催生了实际应用。去年夏天研究人员开发出将句子表征从一个语言模型转换到另一个的方法。如果不同模型的表征在某种程度上可互换,就能找到新方法训练能从多种数据类型学习的模型。伊索拉团队最近的论文探索了这样的训练方案,利用表征的共性来加速多模态学习。
不列颠哥伦比亚大学的杰夫·克伦提供了更谨慎的视角。你不可能用简单的解释来概括一个拥有万亿参数的系统,他说。答案将会很复杂。现代AI模型是人类创造的最复杂的人工系统之一,它们的行为可能同时展现出收敛和分歧的模式,取决于你观察的角度和层面。柏拉图式表征假说提供了一个引人入胜的叙事,但AI的真相可能比任何单一理论都更加微妙和多维。当研究者继续在培养皿里解剖这些数字大脑时,他们正在接近一个更深刻的问题:智能本身是否有一种最优的表征形式,还是存在通往智能的多条平行道路?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.