网易首页 > 网易号 > 正文 申请入驻

科学家惊讶发现不同的AI模型似乎在如何编码现实方面趋于一致

0
分享至



当你读到一个关于狗的故事,然后在公园看到一只真狗时,大脑会立刻建立连接。这看似简单的跨越,对人工智能来说曾经是一道鸿沟。视觉模型在图像中认识狗,语言模型在文本里理解狗,但它们对狗的内部表征是完全不同的数学对象。

然而麻省理工学院的四位研究人员在2024年提出了一个大胆的假说:随着AI模型变得越来越强大,它们正在趋向于一种共享的世界表征方式,就像柏拉图洞穴寓言中的囚徒,虽然看到的只是影子,但所有囚徒最终会意识到影子背后有一个共同的现实世界。

这个被称为柏拉图式表征假说的理论在AI研究界引发了激烈争论。支持者认为这揭示了智能的本质,批评者则质疑研究方法的局限性。但无论立场如何,一个现象已经难以忽视:在不同数据集上训练的不同架构模型,正在学会用越来越相似的方式编码概念。

从文字到图像:神经网络的数学共识

理解这个假说需要先了解AI模型如何表征信息。现代神经网络将每个输入转化为一串数字,这串数字被称为激活向量,代表网络中数千个人工神经元的激活程度。

在抽象的高维空间中,这些向量指向不同方向。相似的概念通常对应相似方向的向量。例如在语言模型中,狗的向量会靠近宠物、吠叫和毛茸茸,而远离柏拉图和糖蜜。这正是英国语言学家弗斯60年前提出的洞见的数学实现:词义取决于它与哪些词同时出现。


所有人工智能模型对“猫”的表示方式都一样吗? 马克·贝兰/ 《量子杂志》

问题在于不同模型的向量空间无法直接比较。就像两个人用不同语言描述同一幅画,你不能逐字对比,但可以判断他们是否在描述相同的场景。研究人员开发了测量相似性的相似性的方法。纽约大学研究员苏霍卢茨基这样形容这种间接测量。

具体做法是准备一组输入,比如一系列动物词汇:狗、猫、狼、水母。将它们分别输入两个模型,记录各自产生的向量集合。然后比较这两个向量集合的整体几何形状是否相似。如果在两个模型中,猫都与狗接近,水母都远离陆生动物,那么说明它们对动物王国的表征结构有共识。

2010年代中期,研究人员开始系统探索这种表征相似性,发现功能更强的模型往往表现出更高的相似度。2021年的一篇论文将这种现象称为安娜·卡列尼娜情境,借用托尔斯泰小说开篇的名句。幸福的家庭都是相似的,不幸的家庭各有各的不幸。或许成功的AI模型都是相似的,而每个失败的模型都有其独特的失败方式。

跨越数据类型的收敛证据

ChatGPT在2023年初的爆红让整个AI研究界陷入生存危机。当时在OpenAI工作的研究员许敏英回忆说,每个人都在思考为什么简单地扩大模型规模就能让它们在各种任务上表现更好。

她开始与麻省理工学院的菲利普·伊索拉及同事定期会面,探讨规模如何影响内部表征。他们意识到,如果只是用相同数据训练的大模型学到相似表征,这可能只是过拟合训练数据的特殊性。但如果用不同数据类型训练的模型也趋同,那就更有说服力了。


最近一篇关于人工智能系统的论文受到了希腊哲学家柏拉图的一则寓言的启发。 卡比托利欧博物馆的西拉尼翁

许敏英进行了一项关键实验。他使用维基百科的图片描述数据集,测试了五种视觉模型和十一种不同规模的语言模型。

图片输入视觉模型,文字描述输入语言模型,然后比较两类模型产生的向量聚类模式。结果令人震撼:随着模型能力增强,跨模态的表征相似性稳步上升。一个只见过文字的模型和一个只见过图像的模型,竟然在以越来越相似的方式理解世界。

伊索拉将这个现象与柏拉图2400年前的洞穴寓言联系起来。在那个寓言中,囚徒被困在洞穴里,只能通过墙上的影子认识外部世界。

柏拉图认为我们都是这样的囚徒,感官世界只是理想形式的影子。在AI的语境中,真实世界投射出不同的数据流,有些是图像,有些是文本,有些是声音。每个模型都是只能接触单一数据流的囚徒。但随着模型变得更强大,它们正在透过各自的数据影子,逐渐接近对共同现实的表征。

争议与未来:通往单一模型的道路

并非所有研究者都买账。加州大学伯克利分校的阿列克谢·埃弗罗斯曾指导过麻省理工团队四人中的三人,但他对这个假说持保留态度。他指出许敏英使用的维基百科数据集中图像和文字高度匹配是有意为之,但现实世界的大多数数据具有难以翻译的特征。这就是为什么你会去美术馆而不是只读图录,埃弗罗斯说。视觉体验包含文字无法捕捉的信息维度。



从右上角顺时针方向:Minyoung Huh、Brian Cheung、Tongzhou Wang 和 Phillip Isola 提出,不同的 AI 模型正在趋向于对其训练数据背后的世界进行共享的“柏拉图式表征”。

从右上角起:Anna Decker;@by.h_official;陈嘉熙;Kris Brewer

实验设计的选择也影响结论。应该关注神经网络的哪一层?从众多数学方法中选择哪种来比较向量集合?测量哪些表征才具有代表性?芝加哥大学的克里斯托弗·沃尔夫拉姆警告说,如果只测试一个数据集,你不知道结果的普适性如何。谁知道使用更奇怪的数据集会发生什么呢?

伊索拉承认这个问题不可能由单篇论文解决。原则上你可以测量模型对任何图片或任何句子的表征,这是个无穷的搜索空间。但他认为寻找普遍规律是科学的本质。我们可以研究模型之间的差异,但这在某种程度上不如找出共同点更有解释力,他说。研究界现在分成两派:一半人认为收敛现象显而易见,另一半认为这显然是错误的。


阿列克谢·埃弗罗斯认为,人工智能模型之间的差异比相似之处更能说明问题。 Peter DaSilva 为 Quanta 杂志撰稿

这场争论已经催生了实际应用。去年夏天研究人员开发出将句子表征从一个语言模型转换到另一个的方法。如果不同模型的表征在某种程度上可互换,就能找到新方法训练能从多种数据类型学习的模型。伊索拉团队最近的论文探索了这样的训练方案,利用表征的共性来加速多模态学习。

不列颠哥伦比亚大学的杰夫·克伦提供了更谨慎的视角。你不可能用简单的解释来概括一个拥有万亿参数的系统,他说。答案将会很复杂。现代AI模型是人类创造的最复杂的人工系统之一,它们的行为可能同时展现出收敛和分歧的模式,取决于你观察的角度和层面。柏拉图式表征假说提供了一个引人入胜的叙事,但AI的真相可能比任何单一理论都更加微妙和多维。当研究者继续在培养皿里解剖这些数字大脑时,他们正在接近一个更深刻的问题:智能本身是否有一种最优的表征形式,还是存在通往智能的多条平行道路?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
平分黄海?韩国提出一个特殊要求,中方未签声明,李在明转身访日

平分黄海?韩国提出一个特殊要求,中方未签声明,李在明转身访日

小噎论事
2026-01-11 10:09:43
山东男篮转折:留洋教练信任小将,邱彪该离开了!

山东男篮转折:留洋教练信任小将,邱彪该离开了!

鲁源侃球
2026-01-11 09:25:01
他是中共创始人,一起确定了党的名字,却因一事退党,晚年很后悔

他是中共创始人,一起确定了党的名字,却因一事退党,晚年很后悔

浩渺青史
2026-01-10 12:14:27
“流氓作家”贾平凹语出惊人:跟睡过的女人比暧昧的女人更有感觉

“流氓作家”贾平凹语出惊人:跟睡过的女人比暧昧的女人更有感觉

百态人间
2026-01-04 16:18:53
宜家宣布将关7家门店后首个休息日:有消费者“错峰付款”,有人来“打卡”告别

宜家宣布将关7家门店后首个休息日:有消费者“错峰付款”,有人来“打卡”告别

红星新闻
2026-01-10 19:20:56
掀翻东部第一,快船赢球谁关键,数据中有答案,哈登也要记一功

掀翻东部第一,快船赢球谁关键,数据中有答案,哈登也要记一功

体坛大辣椒
2026-01-11 11:53:57
100元与20元香烟差别多大?烟厂老员工曝实情,答案出人意料

100元与20元香烟差别多大?烟厂老员工曝实情,答案出人意料

复转这些年
2026-01-08 23:29:55
张水华崇拜丈夫:他是985奥数学霸像百科全书,辞掉化工国企工作

张水华崇拜丈夫:他是985奥数学霸像百科全书,辞掉化工国企工作

一娱三分地
2026-01-09 22:12:07
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
中方不许2件事发生,24小时刚过,美国开始放人,特朗普或被弹劾

中方不许2件事发生,24小时刚过,美国开始放人,特朗普或被弹劾

博览历史
2026-01-10 19:23:58
专访90后三胎妈妈:卖掉杭州500万房产,带孩子去内蒙当「牧民」

专访90后三胎妈妈:卖掉杭州500万房产,带孩子去内蒙当「牧民」

麦子熟了
2025-12-21 21:12:01
央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

黯泉
2026-01-08 23:02:21
这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

装修秀
2025-11-13 11:50:03
目前CBA执教最成功的三位教练都是谁呢?答案可能你想不到

目前CBA执教最成功的三位教练都是谁呢?答案可能你想不到

画夕
2026-01-11 11:47:48
马杜罗:在美国监狱“一切都好”!委代总统:一定要救回马杜罗夫妇

马杜罗:在美国监狱“一切都好”!委代总统:一定要救回马杜罗夫妇

每日经济新闻
2026-01-11 12:26:12
正部级唐仁健今晚将在中纪委专题片出镜忏悔

正部级唐仁健今晚将在中纪委专题片出镜忏悔

澎湃新闻
2026-01-11 09:42:26
医学的尽头真是玄学吗?网友:国家不让你迷信,没说让你不信

医学的尽头真是玄学吗?网友:国家不让你迷信,没说让你不信

带你感受人间冷暖
2025-12-31 00:20:05
遗憾!外教回忆董方卓:不像中国球员,后卫都怕他,可惜过于内向

遗憾!外教回忆董方卓:不像中国球员,后卫都怕他,可惜过于内向

国足风云
2026-01-10 16:00:36
限时11.98万元起!2026款宋Pro DM-i 220km长续航版上市

限时11.98万元起!2026款宋Pro DM-i 220km长续航版上市

汽车消费网
2026-01-11 11:47:40
U23看不上,邵佳一慧眼识珠 朱鹏宇前往国足集训 大连1年出4国脚

U23看不上,邵佳一慧眼识珠 朱鹏宇前往国足集训 大连1年出4国脚

替补席看球
2026-01-11 12:01:16
2026-01-11 13:04:49
娱乐督察中
娱乐督察中
独乐乐不如众乐乐
204文章数 20442关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

网友偶遇贾玲张小斐崇礼滑雪

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

艺术
教育
亲子
健康
数码

艺术要闻

福布斯最佳CEO榜单!马化腾第一!东哥呢?

教育要闻

别抱怨你的孩子找不到工作,原因可能是这几个,要高度重视

亲子要闻

深度长文:原始社会婴儿哭声会引来大量天敌,婴儿如何生存下看?

这些新疗法,让化疗不再那么痛苦

数码要闻

消息称WF-1000XM6下月发售,仅黑白两色

无障碍浏览 进入关怀版