网易首页 > 网易号 > 正文 申请入驻

Yann LeCun等打造信息论框架,驳斥大模型能复制人类认知的观点

0
分享至

近日,图灵奖得主&美国纽约大学教授杨立昆(Yann LeCun)联合美国斯坦福大学团队打造出一款信息论框架,借此揭示了大模型和人类的一个根本差异:即两者在平衡信息压缩和语义意义上采用了截然不同的策略

对于加强人机对齐的 AI 的发展来说,研究团队的本次观察能够为其指明重要方向。它意味着要实现更加接近人类认知理解的 AI,就必须让 AI 突破当前以规模扩张和统计模式匹配为核心的范式。要想让 AI“从 token 发展到思想”、打造真正具备理解能力和推理能力的系统,需要遵循能够培育更丰富、具备上下文感知能力的概念结构的原则。

而研究团队提出的信息论框架在此方向上迈出了可量化的一步。它将促使学界进一步探索:大模型表面上的“低效性”或许恰恰正是构建类人稳健智能的关键特征。

研究团队指出,尽管大模型在广泛的类别对齐上与人类判断一致,但是在捕捉典型性等细粒度语义细微差别方面表现不足,并且其表征效率特征与人类存在显著差异。

其在论文中写道,大模型似乎被进行了高度优化,以便能够实现统计紧凑性,这让大模型形成了信息论意义上的高效表征,因为它们具有较低的簇熵和“更优”的损失函数值。这表明大模型倾向于最小化冗余,以及倾向于最大化统计规律性,而这可能是它们在大型文本语料库上训练的结果。

然而,这种对于平衡信息压缩的强烈关注,限制了大模型完整地编码基于原型的丰富语义细节的能力,而这些细节正是大模型实现类人深度理解的关键所在。

人类认知会优先考虑适应性的丰富度(adaptive richness)、情境灵活性(contextual flexibility)和广泛的功能实用性(尽管按照本次提出的框架来衡量的话,这会在统计紧凑性方面付出一定代价)。

研究团队认为,他们针对人类概念所观察到的高熵和损失函数值,很可能反映了人类认知系统针对更广泛复杂认知需求的一种优化。这些需求包括:为实现稳健泛化而形成的细微表征;支持强大的推理能力比如因果推理、功能推理和目标导向推理;通过可学习和可共享的结构实现有效沟通,并将概念锚定于丰富的多模态体验中。

其指出,大脑的神经结构本身可能天生倾向于分布式、上下文敏感且适应性强的表征,而非倾向于静态的最优压缩。因此,人类认知似乎会天然地“投资”于本次研究团队统计指标中所认为的“低效性”,以便换取更强的适应性和灵活性。

在特定的对齐任务之中,谷歌公司的 BERT 这样的小型编码器模型有着出色表现,这表明模型架构设计和预训练目标会显著影响大模型抽象出类人概念信息的能力。

本质上,大模型擅长统计可压缩性,它走的是一条与人类认知截然不同的表征道路。而人类认知更加注重适应性的丰富度和功能实用性,并且人类往往将这些置于纯粹的统计效率之上。这一核心差异至关重要,因为它突显了 AI 在追求类人理解方面的当前局限性,从而能为后续研究指明关键方向。

大模型中的意义之谜

据了解,人类通过语义压缩将多样实例映射为抽象表征,在保持意义完整的同时将知识组织为紧凑的类别体系,例如知更鸟和蓝松鸦都属于鸟类,大多数鸟类都会飞等等,这些概念反映了表达保真度与表征简洁性之间的权衡。

尽管大模型展现出了卓越的语言能力,但是人们依然不清楚它们的内部表示是否在压缩效率与语义保真之间达成了类似于人类的权衡。

率失真理论(RDT,Rate-Distortion Theory)是信息论的核心分支之一,用于研究在允许一定失真的条件下信息压缩的极限效率。信息瓶颈原理(IB,Information Bottleneck Principle)是信息论与机器学习交叉领域的核心理论,用于揭示智能系统在信息处理中的本质权衡。

在本次研究之中,研究团队基于率失真理论与信息瓶颈原理,构建了一个全新的信息论框架,以用于量化和比较上述两种认知策略。

研究中,研究团队将多种大模型的 token 嵌入与经典的人类分类基准进行比较分析,借此发现了若干关键差异。

具体来说,虽然大模型形成了与人类判断相一致的广泛概念类别,但它们很难捕捉到对人类理解至关重要的细粒度语义区别。

从更根本的层面看,大模型展现出对激进的统计压缩的强烈偏好,而人类的概念系统似乎更重视适应性的细腻差别与语境的丰富性,即便这在研究团队的衡量标准下意味着较低的压缩效率。

据介绍,人类语言结构所定义的范畴可能会因语言而异,但它们都被映射到一个共同的概念空间中。这一概念空间代表了人类共同的认知遗产,它实际上也构成了人类心智的认知版图。

人类形成概念的能力,也是智能的基石。基于此,人类能够从复杂信号中提取意义,以便应对信息过载。具体来说,人类通过识别关键特征、并将体验压缩为认知上可处理的信息摘要来实现了这一能力。

人类的概念架构通常呈现出层级化的特征,这在本质上是一种高效的语义压缩机制:它能将多样实例映射为紧凑表征,同时保留核心语义关系。同时,这一过程能在表征效率与关键语义保真度的保留之间取得平衡,而这种权衡是人类学习事物和理解事物的核心。

大模型在处理和生成人类语言方面表现出惊人的能力,能够执行许多看似需要深度语义理解的任务。然而,一个根本性谜题始终未解:大模型是否真正能像人类一样理解概念和意义?还是说它们的成功主要源于对海量数据集进行复杂的统计模式匹配?

鉴于人类能够轻松地将大量输入提炼为紧凑且有意义的概念,而这一过程由信息压缩与语义保真度之间的内在权衡所主导,因此揭开上述谜题就显得尤为重要。

作为人类认知的思维支架,概念系统能够实现高效信息解析、稀疏数据泛化以及丰富语义交流。为了让大模型超越表层模仿从而实现更加接近人类的理解,关键在于要研究它们的内部表示如何在信息压缩与语义保留之间做出权衡。

那么,大模型究竟是发展出了与人类思维的效率和丰富性相媲美的概念结构?还是采用了根本不同的表征策略?

为了解决这个问题,研究团队引入了一种基于信息论的新型定量方法。他们开发并应用了一个基于率失真理论和信息瓶颈原理的框架,系统地比较了大模型和人类概念结构如何在表征复杂性和语义保真度之间取得平衡。

需要说明的是,研究团队采用认知心理学领域的经典数据集来刻画人类的分类行为,并以此作为关键的人类认知基准。与此同时,他们针对这些经典数据集进行数字化处理并公开发布。

而研究团队所提出的框架专门用于剖析这些不同系统如何在压缩与语义之间权衡。通过针对多种大模型的比较分析,其揭示了它们在表征策略上的差异。

尽管大模型通常能够形成与人类判断相符的宽泛概念类别,但它们往往无法捕捉对人类理解至关重要的细粒度语义差异。

更为关键的是,研究团队发现了一种明显的优先级差异:即大模型倾向于强烈而激进的统计压缩,而人类更偏好适应性的细腻差别和语境的丰富性——即便这可能会以牺牲纯粹的压缩效率为代价。

这种分歧突显了人类与 AI 的根本差异,并为开发具有更人性化概念理解的 AI 指明了方向。

以人类认知为基准

研究团队表示,从实证角度研究大模型表征与人类概念结构之间的关系需要两个关键要素:可靠的人类分类基准和多样化的大模型选择。

本次工作中的比较研究,以认知心理学经典研究中关于人类分类过程的实证数据为基准。后者为人类如何形成概念、判断类别归属以及感知典型性提供了丰富的实证证据。

与许多可能存在噪声的现代众包数据集不同的是,这些经典基准由认知科学专家精心设计,反映的是深层的认知模式而非表面关联的认知模式,且根植于当时蓬勃发展的概念结构理论。

具体来说,研究团队重点选取了上个世纪的以下三项开创性研究:

1973 年,美国加州大学伯克利分校教授埃莉诺·罗施(Eleanor Rosch)针对语义范畴进行了探索。该成果认为,范畴是围绕着“原型”成员、而非围绕严格且平等共享的特征来组织的。相关数据集涵盖了 8 个常见语义范畴中的 48 个项目比如家具和鸟类,这些项目还被进行了原型性排名,例如知更鸟是典型的鸟类,而蝙蝠则是不典型的鸟类(它实际上是哺乳动物)。

1975 年,埃莉诺·罗施(Eleanor Rosch)进一步详述了语义范畴在认知中的表征方式,针对十个范畴中的 552 个项目提供了广泛的典型性评级,例如橙子是典型的水果,南瓜则是典型性较低的水果(实际上在日常生活中南瓜主要被作为蔬菜食用)。

1978 年,美国约翰霍普金斯大学教授迈克尔・麦克洛斯基(Michael McCloskey)与美国普林斯顿大学山姆·格拉克斯伯格(Sam Glucksberg)研究了自然类别的“模糊”边界,表明类别归属通常是渐进分级的而非绝对的。相关数据集涵盖 18 个类别中的 449 个项目,包含典型性评分和类别归属确定性评级。例如,连衣裙是典型的衣物,而创可贴的典型性则比较低。

尽管这些数据集源自不同的研究团队、且理论侧重点各不相同,但它们均采用了严谨的实验设计,并提供了关于类别归属和项目典型性的数据。基于此,本次研究团队整合了这些研究的数据,创建了一个涵盖 34 个类别、1049 个项目的统一基准。目前,研究团队已将该数据集进行数字化和开源。

所选模型涵盖当前主流架构范式

在本次研究之中,研究团队纳入了多种类型的大模型,以便评估概念表征如何随计算架构和规模的不同而变化。

这一选定的模型涵盖了当前主流的架构范式,并覆盖了从 3 亿到 720 亿参数的广泛规模区间。所采用的大模型大多数是仅解码器自回归模型,包括:

  • 6 个 Llama 系列模型(参数规模从 10 亿到 700 亿,如 Llama 3.1 700 亿参数模型);
  • 5 个 Gemma 系列模型(20 亿到 270 亿参数);
  • 13 个 Qwen 系列模型(5 亿到 720 亿参数);
  • 4 个 Phi 系列模型(如 Phi-4);
  • 1 个 Mistral 70 亿参数模型。

在相关分析之中,研究团队主要采用 BERT 系列中的纯编码器架构模型。对于每个大模型,研究团队从其输入嵌入层中提取静态的 token 级嵌入。这一选择使得他们的分析与人类分类实验中典型的无上下文刺激特征相契合,从而确保了表征基础的可比性。

总的来说,为了解析大模型与人类认知如何应对“意义表征”这一根本性挑战,研究团队构建了一个信息论分析框架。其表示,他们所提出的信息论框架和损失函数目标,为指导和评估模型实现更加类人的平衡能力提供了一种潜在工具。

对于认知科学而言,大模型凭借其独特的优化偏向性,成为极具价值的计算参照样本。通过对比大模型的操作策略与人类表现,能够揭示塑造人类概念形成的独特约束条件和多维目标,从而为检验认知理论提供强有力的实验平台。

这些发现阐明了当前 AI 和人类认知结构之间的关键差异,并为构建更符合人类概念表征的大模型指明了方向。研究团队在论文中表示,学界的相关后续研究应着力探索能够主动培育更丰富、更具语义细微差别的概念结构的设计原则。

参考资料:

https://arxiv.org/pdf/2505.17117

排版:溪树

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
教育
健康
游戏

亲子要闻

这就是引导型老师的厉害吗?

皮衣+裙,高级到炸

教育要闻

2026人工智能时代下的教育课堂变革

转头就晕的耳石症,能开车上班吗?

《迷你金属2》4月开启开发版测试 军事题材战略模拟

无障碍浏览 进入关怀版