网易首页 > 网易号 > 正文 申请入驻

只靠预测下一个词,大模型也能“长出概念”?| PNAS 揭示类人概念表征的涌现

0
分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注,点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享


基本信息:

Title:Revealing emergent human-like conceptual representations from language prediction

发表时间:2025.10.31

Journal:PNAS

影响因子:9.1

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本



引言

我们日常生活中随时都在用“概念(concept)”思考:看到一只从未见过的狗,你仍然能立刻认出“这是狗”;看到朋友圈发的落日照片,会自动想到“太阳”“傍晚”“下班真好”;听到别人说“这个人就是我们组的太阳”,你又能从“太阳”这个物理天体,瞬间切换到“温暖、积极、带来能量”的抽象含义。

概念就是我们心里对世界的“压缩包”,把无穷多的具体经验,浓缩成一个可以反复调用的心理单元。


传统认知科学认为,人类之所以能建立这样稳定、可泛化的概念,是因为我们有丰富的物理经验和社会经验:看得见、摸得着、互动得了。

孩子通过看太阳升起落下、感受阳光温度、在故事书里看到“太阳公公”,一点点学会什么是“太阳”。而且概念还不是孤立存在的,“太阳”可以类比“原子核”,“狗”既是“动物(animal)”,又是“宠物(pet)”,概念之间构成一张错综复杂的网络,这些关系也是我们理解世界的关键。

但近几年出现的大语言模型(large language model, LLM)打乱了很多人的直觉。它们只是在海量文本上做一件看似“机械”的事:预测下一个词(next-token prediction)。没有看过真实世界,没有视觉、听觉、触觉输入,却在各种语言任务、考试题目、甚至类心理学测验上,表现得越来越像人。这就引出了一个尖锐的问题:

只靠预测下一个词,LLM 里会不会也自发形成某种“概念”?这些“概念”到底有多像人类心里的概念?

围绕这个问题,学界争论非常激烈。

一派认为 LLM 只是“随机鹦鹉”(stochastic parrot):它只是学会了统计共现,把词按概率接下去,缺乏真正的理解(understanding)和概念(concept),更谈不上与现实世界的联系。

另一派则指出,仅仅看输出现象,很难否认它在很多任务上展现出的“概念化”能力,而且人类自己在使用概念时,语言本身就是极其重要的线索,意义在很大程度上就体现在概念之间的关系(conceptual relations)里。

在更理论的层面,这场争论还牵扯到老牌的哲学与认知科学分歧:符号主义(symbolism) VS 连接主义(connectionism)。

符号主义强调概念是类似“符号”的离散单元,可以组合推理、构成逻辑结构;

连接主义则把概念看作神经网络中分布式、渐进的激活模式,更适合处理噪声和经验学习。

人类概念似乎同时具备两方面的优点:既有可以清晰界定、可用语言定义的“概念内涵”(例如“月亮是地球的天然卫星”),又有连续、渐变的表征空间(例如“猎豹比猫快,但没快到离谱”的“快慢等级”)。那 LLM 里是否也存在类似的结构?

这篇发表在 PNAS 的工作,正面回应了这些争议。作者团队提出:

与其只看模型输出,不如直接去“挖”模型内部的概念表征(conceptual representation);关键是要设计一个任务,让模型在一个比较接近“人类用概念”的情境下工作,然后分析它此时形成的内部向量结构。

为此,他们把日常生活中常见的“反向词典任务(reverse dictionary)”当成了一个通用的“概念探针”。所谓反向词典,就是给你一段文字描述,让你猜是什么词,比如:“地球唯一的天然卫星,夜空中圆圆亮亮的那个东西”——你会回答“月亮”

对人类来说,这个任务其实是在做两件事:

  • 根据语言描述,在脑中构造一个概念

  • 再从已有词汇中找出最匹配这个概念的词

作者认为,如果我们让 LLM 在类似情境下工作,并且在它“准备给出那个词”的瞬间,读取它内部某一层的向量,就可以把这向量视为模型对该概念的“心理表征”

论文中 图 1(第 3 页) 画出了这一流程:模型先看到若干“描述 ⇒ 词(description ⇒ word)”的示例作为上下文,再看到一个只给描述、不给词的查询句子,最后在箭头位置输出最可能的词。“箭头”处的隐藏状态向量,就是作者提取的概念向量。

接下来作者做了几件事:

考察 LLM 是否真的能从定义中稳定“长出”概念

他们利用 THINGS 数据库中近 2000 个日常物体概念的定义描述,对开源大模型 LLaMA3-70B 等进行大规模测试,发现:只需少量示例(十几个)作为上下文,模型就能在反向词典任务中达到接近 90% 的严格词汇匹配准确率。这说明,模型不是简单地“记字符串”,而是能把不同表述统一到同一个概念上。

看这些概念向量在不同上下文中是否仍保持一个“共享结构”

作者反复更换示例组合、演示顺序等“语境”,每次都抽取模型内部的概念表征,并用表征相似性分析(representational similarity analysis, RSA)去看:不同语境下,同一批概念之间的“距离关系”是否稳定。结果显示,当示例数量增加到 20 多个左右时,不同语境下的表示空间高度相似,且这种收敛程度与模型在任务上的准确率高度相关。这意味着,模型在语言预测训练下,自发形成了一个相对**上下文无关(context-independent)**的概念结构。

把模型里的概念结构,拿去预测人类行为和脑活动

在心理学层面,作者用这些概念向量去预测人类的语义相似性判断、类别归属(比如“动物”“食物”等)、以及“猎豹有多快”“鲸有多大”这类沿特定特征维度的等级评分。模型的表现整体上明显优于传统静态词向量(如 FastText、GloVe),并在多数数据集上接近人类一致性的“上限”。

在神经科学层面,他们利用 THINGS 数据集中的功能磁共振成像(functional magnetic resonance imaging, fMRI)数据,用线性编码模型预测人脑在看物体图片时的脑区激活。结果显示,LLM 概念向量能解释的方差广泛分布于视觉皮层及高阶语义相关区域,尤其在侧枕叶、梭状回等“类别选择性”区域表现突出。

当然,这种类人相似性也并非完美。作者发现,模型尤其在颜色、纹理等强感知维度上,与人类判断存在显著差距;在 fMRI 分析中,基于人类相似性数据训练的表征,在早期视觉皮层(如 V1)对脑活动的解释力仍明显优于 LLM 表征。换句话说,只靠语言预测长出的概念,已经能很好覆盖高层语义结构,但对细腻的感知细节还不够敏感。

总体来看,这篇工作给了一个相当有力、但也相当谨慎的结论:在完全没有“真实世界”感知输入、只做下一词预测的前提下,大语言模型内部会自发涌现出一个结构化的、与人类相当接近的概念空间。这个空间兼具“符号式”的清晰可定义性与“向量式”的连续性与可计算性,既能支撑类似人类的相似性判断和分类,又在很大程度上映射到人脑中对概念的编码方式。

这不仅为理解 LLM “到底懂不懂”提供了一个新的角度,也为未来把 LLM 当作“可控、可观察的心智模型”,去研究人类概念系统本身,打下了重要基础。


核心图表


Fig. 1. Illustration of the reverse dictionary task as a conceptual probe.


Fig. 2. Performance of LLaMA3-70B on the reverse dictionary task measured through exact match accuracy.


Fig. 3. LLMs converge toward a similar representational structure of concepts.


Fig. 4. Alignment between LLM-derived conceptual representations and psychological measures of similarity.


Fig. 5. Performance of conceptual representations derived from LLaMA3-70B in predicting context-dependent human ratings across 52 category–feature pairs.


Fig. 6. Comparison of LLM-derived conceptual representations and static word embeddings in predicting context-dependent human ratings.


Fig. 7. Prediction performance of LLM-derived conceptual representation (LLaMA3-70B) in voxel-wise encoding and comparisons with baseline models.


前沿交流|欢迎加入认知神经科学前沿交流群!


核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人:BQ

审核:PsyBrain 脑心前沿编辑部

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国多家石油公司对投资委内瑞拉表态谨慎,埃克森美孚:目前“不可投资”

美国多家石油公司对投资委内瑞拉表态谨慎,埃克森美孚:目前“不可投资”

澎湃新闻
2026-01-10 13:34:06
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
海空英雄、一等战斗功臣高翔逝世,曾驾驶歼-6打爆美军机

海空英雄、一等战斗功臣高翔逝世,曾驾驶歼-6打爆美军机

澎湃新闻
2026-01-10 12:52:26
不留情面!陈熠输给43岁韩莹真相曝光,马琳暂停罕见发火:拼命加转呀

不留情面!陈熠输给43岁韩莹真相曝光,马琳暂停罕见发火:拼命加转呀

好乒乓
2026-01-10 11:11:01
断供危机!中国炼油厂弃购委内瑞拉原油?转投加拿大高价重油?

断供危机!中国炼油厂弃购委内瑞拉原油?转投加拿大高价重油?

策略述
2026-01-09 19:22:55
朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

涵豆说娱
2026-01-09 14:13:04
巴厘岛计划推动“高水平旅游”,要求外国游客“晒存款”,公开近3个月银行账户余额

巴厘岛计划推动“高水平旅游”,要求外国游客“晒存款”,公开近3个月银行账户余额

红星新闻
2026-01-10 13:07:21
詹姆斯再创历史第一!湖人惜败雄鹿,东契奇25中8,一战认清5事实

詹姆斯再创历史第一!湖人惜败雄鹿,东契奇25中8,一战认清5事实

篮球看比赛
2026-01-10 15:08:57
A股:人民日报定调!释放强烈信号,股民准备好,下周要冲4200?

A股:人民日报定调!释放强烈信号,股民准备好,下周要冲4200?

云鹏叙事
2026-01-10 00:00:06
拉爆了!沪指10年新高,突破4100点!超3900只个股上涨,放量成交超3万亿!后市怎么看?

拉爆了!沪指10年新高,突破4100点!超3900只个股上涨,放量成交超3万亿!后市怎么看?

雪球
2026-01-09 15:58:58
3-1逆转早田希娜!中国女乒21岁世界冠军闪耀:进化变第三巨头?

3-1逆转早田希娜!中国女乒21岁世界冠军闪耀:进化变第三巨头?

李喜林篮球绝杀
2026-01-09 18:09:24
最新!外媒:哈梅内伊发表讲话称伊朗绝不退缩

最新!外媒:哈梅内伊发表讲话称伊朗绝不退缩

环球网资讯
2026-01-09 18:09:15
雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

雷军再回应"1300公里只充一次电" 水军想给我贴"虚假营销"的标签

每日经济新闻
2026-01-09 10:29:49
张馨予晒妈妈织的围巾!随手一披美的惊艳,还被称呼为宝宝好幸福

张馨予晒妈妈织的围巾!随手一披美的惊艳,还被称呼为宝宝好幸福

阿雹娱乐
2026-01-10 14:33:35
太损了!特斯拉女车主被限消,一帮车主感谢上了:多亏你,选了它

太损了!特斯拉女车主被限消,一帮车主感谢上了:多亏你,选了它

小李车评李建红
2026-01-08 07:30:03
1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

老杉说历史
2026-01-09 22:00:17
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
火箭罪魁祸首出炉,杜兰特苦不堪言!乌度卡只会甩锅,探花也该批

火箭罪魁祸首出炉,杜兰特苦不堪言!乌度卡只会甩锅,探花也该批

鱼崖大话篮球
2026-01-10 15:04:36
最新视频还原致命瞬间:明州ICE探员开枪前发生了什么?

最新视频还原致命瞬间:明州ICE探员开枪前发生了什么?

华人生活网
2026-01-10 06:05:22
特朗普:美国将控制全球55%的石油

特朗普:美国将控制全球55%的石油

扬子晚报
2026-01-10 14:01:44
2026-01-10 15:20:49
PsyBrain脑心前沿
PsyBrain脑心前沿
追踪脑科学新动态,聚焦认知与神经新研究
101文章数 8关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

媒体:中国若在其任期统一特朗普不悦 中方回应滴水不漏

头条要闻

媒体:中国若在其任期统一特朗普不悦 中方回应滴水不漏

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

赵樱子称和蒋毅试婚三天:像试面膜

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

健康
本地
房产
家居
数码

这些新疗法,让化疗不再那么痛苦

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

家居要闻

木色留白 演绎现代自由

数码要闻

最快续航最久的XM模具 雷柏 VT0/VT0 Max鼠标实测:这是目前最均衡的轻量化旗舰

无障碍浏览 进入关怀版