PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息:
Title:Revealing emergent human-like conceptual representations from language prediction
发表时间:2025.10.31
Journal:PNAS
影响因子:9.1
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
引言
我们日常生活中随时都在用“概念(concept)”思考:看到一只从未见过的狗,你仍然能立刻认出“这是狗”;看到朋友圈发的落日照片,会自动想到“太阳”“傍晚”“下班真好”;听到别人说“这个人就是我们组的太阳”,你又能从“太阳”这个物理天体,瞬间切换到“温暖、积极、带来能量”的抽象含义。
概念就是我们心里对世界的“压缩包”,把无穷多的具体经验,浓缩成一个可以反复调用的心理单元。
![]()
传统认知科学认为,人类之所以能建立这样稳定、可泛化的概念,是因为我们有丰富的物理经验和社会经验:看得见、摸得着、互动得了。
孩子通过看太阳升起落下、感受阳光温度、在故事书里看到“太阳公公”,一点点学会什么是“太阳”。而且概念还不是孤立存在的,“太阳”可以类比“原子核”,“狗”既是“动物(animal)”,又是“宠物(pet)”,概念之间构成一张错综复杂的网络,这些关系也是我们理解世界的关键。
但近几年出现的大语言模型(large language model, LLM)打乱了很多人的直觉。它们只是在海量文本上做一件看似“机械”的事:预测下一个词(next-token prediction)。没有看过真实世界,没有视觉、听觉、触觉输入,却在各种语言任务、考试题目、甚至类心理学测验上,表现得越来越像人。这就引出了一个尖锐的问题:
只靠预测下一个词,LLM 里会不会也自发形成某种“概念”?这些“概念”到底有多像人类心里的概念?
围绕这个问题,学界争论非常激烈。
一派认为 LLM 只是“随机鹦鹉”(stochastic parrot):它只是学会了统计共现,把词按概率接下去,缺乏真正的理解(understanding)和概念(concept),更谈不上与现实世界的联系。
另一派则指出,仅仅看输出现象,很难否认它在很多任务上展现出的“概念化”能力,而且人类自己在使用概念时,语言本身就是极其重要的线索,意义在很大程度上就体现在概念之间的关系(conceptual relations)里。
在更理论的层面,这场争论还牵扯到老牌的哲学与认知科学分歧:符号主义(symbolism) VS 连接主义(connectionism)。
符号主义强调概念是类似“符号”的离散单元,可以组合推理、构成逻辑结构;
连接主义则把概念看作神经网络中分布式、渐进的激活模式,更适合处理噪声和经验学习。
人类概念似乎同时具备两方面的优点:既有可以清晰界定、可用语言定义的“概念内涵”(例如“月亮是地球的天然卫星”),又有连续、渐变的表征空间(例如“猎豹比猫快,但没快到离谱”的“快慢等级”)。那 LLM 里是否也存在类似的结构?
这篇发表在 PNAS 的工作,正面回应了这些争议。作者团队提出:
与其只看模型输出,不如直接去“挖”模型内部的概念表征(conceptual representation);关键是要设计一个任务,让模型在一个比较接近“人类用概念”的情境下工作,然后分析它此时形成的内部向量结构。
为此,他们把日常生活中常见的“反向词典任务(reverse dictionary)”当成了一个通用的“概念探针”。所谓反向词典,就是给你一段文字描述,让你猜是什么词,比如:“地球唯一的天然卫星,夜空中圆圆亮亮的那个东西”——你会回答“月亮”。
对人类来说,这个任务其实是在做两件事:
根据语言描述,在脑中构造一个概念
再从已有词汇中找出最匹配这个概念的词
作者认为,如果我们让 LLM 在类似情境下工作,并且在它“准备给出那个词”的瞬间,读取它内部某一层的向量,就可以把这向量视为模型对该概念的“心理表征”。
论文中 图 1(第 3 页) 画出了这一流程:模型先看到若干“描述 ⇒ 词(description ⇒ word)”的示例作为上下文,再看到一个只给描述、不给词的查询句子,最后在箭头位置输出最可能的词。“箭头”处的隐藏状态向量,就是作者提取的概念向量。
接下来作者做了几件事:
考察 LLM 是否真的能从定义中稳定“长出”概念
他们利用 THINGS 数据库中近 2000 个日常物体概念的定义描述,对开源大模型 LLaMA3-70B 等进行大规模测试,发现:只需少量示例(十几个)作为上下文,模型就能在反向词典任务中达到接近 90% 的严格词汇匹配准确率。这说明,模型不是简单地“记字符串”,而是能把不同表述统一到同一个概念上。
看这些概念向量在不同上下文中是否仍保持一个“共享结构”
作者反复更换示例组合、演示顺序等“语境”,每次都抽取模型内部的概念表征,并用表征相似性分析(representational similarity analysis, RSA)去看:不同语境下,同一批概念之间的“距离关系”是否稳定。结果显示,当示例数量增加到 20 多个左右时,不同语境下的表示空间高度相似,且这种收敛程度与模型在任务上的准确率高度相关。这意味着,模型在语言预测训练下,自发形成了一个相对**上下文无关(context-independent)**的概念结构。
把模型里的概念结构,拿去预测人类行为和脑活动
在心理学层面,作者用这些概念向量去预测人类的语义相似性判断、类别归属(比如“动物”“食物”等)、以及“猎豹有多快”“鲸有多大”这类沿特定特征维度的等级评分。模型的表现整体上明显优于传统静态词向量(如 FastText、GloVe),并在多数数据集上接近人类一致性的“上限”。
在神经科学层面,他们利用 THINGS 数据集中的功能磁共振成像(functional magnetic resonance imaging, fMRI)数据,用线性编码模型预测人脑在看物体图片时的脑区激活。结果显示,LLM 概念向量能解释的方差广泛分布于视觉皮层及高阶语义相关区域,尤其在侧枕叶、梭状回等“类别选择性”区域表现突出。
当然,这种类人相似性也并非完美。作者发现,模型尤其在颜色、纹理等强感知维度上,与人类判断存在显著差距;在 fMRI 分析中,基于人类相似性数据训练的表征,在早期视觉皮层(如 V1)对脑活动的解释力仍明显优于 LLM 表征。换句话说,只靠语言预测长出的概念,已经能很好覆盖高层语义结构,但对细腻的感知细节还不够敏感。
总体来看,这篇工作给了一个相当有力、但也相当谨慎的结论:在完全没有“真实世界”感知输入、只做下一词预测的前提下,大语言模型内部会自发涌现出一个结构化的、与人类相当接近的概念空间。这个空间兼具“符号式”的清晰可定义性与“向量式”的连续性与可计算性,既能支撑类似人类的相似性判断和分类,又在很大程度上映射到人脑中对概念的编码方式。
这不仅为理解 LLM “到底懂不懂”提供了一个新的角度,也为未来把 LLM 当作“可控、可观察的心智模型”,去研究人类概念系统本身,打下了重要基础。
![]()
核心图表
![]()
Fig. 1. Illustration of the reverse dictionary task as a conceptual probe.
![]()
Fig. 2. Performance of LLaMA3-70B on the reverse dictionary task measured through exact match accuracy.
![]()
Fig. 3. LLMs converge toward a similar representational structure of concepts.
![]()
Fig. 4. Alignment between LLM-derived conceptual representations and psychological measures of similarity.
![]()
Fig. 5. Performance of conceptual representations derived from LLaMA3-70B in predicting context-dependent human ratings across 52 category–feature pairs.
![]()
Fig. 6. Comparison of LLM-derived conceptual representations and static word embeddings in predicting context-dependent human ratings.
![]()
Fig. 7. Prediction performance of LLM-derived conceptual representation (LLaMA3-70B) in voxel-wise encoding and comparisons with baseline models.
![]()
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.