网易首页 > 网易号 > 正文 申请入驻

基于大模型的共享语言空间,模拟人类的“秒懂”机制 | 追问顶刊

0
分享至

快读:我们何以真正听懂对方的语言?当对方说反话时,为什么我们能意识到对方真实的想法和词语本意相悖?美国普林斯顿大学的研究团队通过收集对话中双方的神经活动,以及基于GPT-2开发的计算框架,有效地分离出了对话中的语言性和非语言性因素对大脑活动的影响,在一定程度上阐释了对话中的词语是如何影响我们的思维,并避免了“对牛弹琴”的发生。

人类对语言理解的多样性

在语言的使用上,最绕不开的话题就是理解和误解。表达的本质是希望被“听见”,然而,就算说着同一语言,同音字,一词多义、或者同一词汇在不同语境下的意义变迁,都会为表达带来难度,导致双方理解出现歧义。也就是说,良好的沟通和理解是建立在双方对某一语境下的词汇表达的共识上的。比如,“cold(冷)”这个词,既可以表达温度,也可以表示人的性格,还可以表示一种病毒感染疾病。根据语境,‘你像冰一样冷’既可以被理解为体温冷,也可以被理解为性格高冷。那么,在对话中的双方到底是如何做到对同一词语拥有相同的理解呢?

在大语言模型被广泛使用之前,学界对于语境中词语使用的精确模拟相对匮乏。早期的研究会使用数据驱动、未经调整的耦合方法(data-driven, unmediated coupling methods),例如测量被试间神经活动相似性(intersubject correlation,ISC)的强度,来测量对话双方的共同理解程度。此前,ISC被大量用于理解不同个体在相似刺激或任务下,产生的神经活动的相似性。比如,2008年Uri Hasson团队就使用 ISC 技术,通过分析记忆表现后的跨参与者相关性(ISC-SM),来识别电影观看中成功编码与未成功编码片段的BOLD反应,在观众间的相关脑区。通过对比观众在记忆成功与未成功片段中的脑活动相似度,研究团队揭示了与记忆形成相关的脑区活动模式。(Uri Hasson et al., 2008)

这种技术在一定程度上揭示了表达者和倾听者神经活动之间的关联性,却没有将交流内容这一因素分离出来单独研究。这是由于,ISC强度可以被任何一对在被试之间共有的信号调动。比如说,如果在面对面的交流中,ISC指数高有可能是因为交流中的词语在双方的理解中相同,也有可能是因为其他的非语言因素,比如音调、韵律、肢体动作、面部表情、眼神等和社交表达相关的非词义因素。所以,该指数的强度并不能揭示交流中具体哪个特征在双方的大脑中达成了一致,就算 ISC 指数高,也不能说明双方类似的大脑活动是因为相同的语言内容刺激。

大语言模型在语言理解中的作用

直到最近,大语言模型(LLMs)被广泛使用后,人们再次意识到日常交流中语境对语义理解的重要性,学界开始为对话中共同理解的脑神经基础寻找新的解答。在大语言生成模型的机制中,通过学习大量自然语言的语料,并且将语料库编码成数据结构后嵌入多维空间,仅仅通过简单的“下一词预测”就可以生成出符合最语境的句子。这种对语言的处理和‘计算’方式,在某种程度上与人类理解语言的机制相似。

此前就有研究表明,语言模型和人类在处理自然语言方面共享相同的计算原则。详细来讲,在人类大脑和自回归动态语言模型(DLMs)处理相同的自然叙述时,它们共享三个基本的计算原则:(1)在词出现之前,两者都参与连续的下一个词预测;(2)两者都将其词出现前的预测与即将到来的词进行匹配,以计算词出现后的惊讶度;(3)两者都依靠上下文嵌入来表达语境中的词汇 (Ariel Goldstein et al., 2022)。

由此,学界自然而然地产生了用大语言模型来进一步学习理解的想法,尤其是从表达者到倾听者大脑的语言信息传递:LLMs是否能构建一个明确的数值模型,用于模拟自然沟通中大脑间共享的、语境依赖信息的传递?

Zada, Zaid, et al. "A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations." Neuron (2024).

实验方法

在最新发表在Neuron的一项研究对此进行了讨论。研究招募了11对参与者(共22人)进行面对面的自然对话,同时使用脑皮层电图(ECoG)技术记录他们的大脑活动。ECoG是一种高时空分辨率的神经记录技术,可以直接从大脑皮层表面记录电信号。

在获得了对话时高精度的神经活动记录数据后,研究团队用以GPT-2为基本模型生成的上下文嵌入,构建了一个多维的语言嵌入空间。这个空间能够捕捉词语的语义、句法和上下文特征。接着,研究者使用这些嵌入来预测表达者和倾听者大脑中的神经活动。他们训练编码模型,将嵌入映射到特定脑区的神经反应上。

图1:用于捕获表达者和倾听者语言耦合的编码模型。

主要发现

研究发现,表达者的大脑在单词发音之前就已经形成了依赖于语境的语言内容,而在倾听者的大脑中,这些语言内容在单词发音之后再次出现。在面对面交流中,表达者和倾听者的大脑响应可能由于其他变量(如面部表情、手势和背景声音)而耦合,这些变量在本质上不属于语言。

通过大脑活动数据建模而成的共享嵌入空间不仅可以预测不同脑区的神经活动,还可以记录不同时间的动态和选择性(见图2-B)。这些功能使得嵌入空间可以成功地预测在对话中双方各自的神经活动。

在此基础上,研究员使用基于表达者神经活动的数据训练而成的数据来预测倾听者的神经活动,然后再反过来预测。在反复的校准后,编码模型排除了在对话中可能对理解有帮助,但是并没有出现在语句中的非语言因素。也就是说,通过编码模型配对对话双方的脑部活动优于传统的ISC方法,可以限制任何一对被观察的表达-倾听被试是在一对相同的、依赖于语境的语言嵌入中的。

图2:表达者与倾听者的脑内语言编码表现。

不过,该实验仍然使用ISC方法测量了表达者和倾听者之间神经活动的相似性(图3-C)。配对编码实验表明,与对话时候的信息流一致,表达者的大脑是在“引导”倾听者的大脑的(图3-B)。详细来讲,在说话时每一个词汇被叙述之前,语言性内容就已经在表达者的大脑中出现了,此后,在该词语被听到之后,同样的内容再在倾听者的大脑中出现。这种时间性的动势是逐词推进、并且仅限于当前词语的。

除了对单个词语的分析,嵌入空间也提取出了自然对话中文本的语言性特征(linguistic features),包括形态学的、句法的、语义的、上下文的、和从属关系上的。相较于传统的非中介耦合方法(如ISC)和基于传统心理语言学开发的特征对方法(表达音素模型和句法模型),以大语言生成模型为基础的框架可以支持更严谨的检验。

为了保证嵌入空间对于语言性特征的学习具有传递性(connectivity),研究员还评估表达者和倾听者大脑内皮层语言网络各区域之间的语言耦合。举例来说,该实验使用了在表达者的前颞叶(ATL)神经活动上训练的编码模型来预测表达者的颞上回(STG)的神经活动。同样地,研究员还使用了在倾听者的颞上回(STG)神经活动上训练的编码模型来预测倾听者的前颞叶(ATL)的神经活动。这种分析产生了表达者和倾听者大脑内语言区域对之间的滞后编码矩阵(lag-by-lag encoding matrices)。这种交叉验证的方法可以有效地显示不同脑区之间信息的时间顺序和流动性。

图3:表达者-倾听者的脑对脑语言耦合。

此外,该实验也评估了非语言性因素对双方的共同理解形成的影响。这一部分,研究员采用了和先前实验相同的ISC技术,对比计算表达者和倾听者之间的脑部互动。和先前实验一致,我们发现了在自然对话中,表达者和倾听者的神经活动之间有强配对性。然而,这种分析方法无法逐词分离对话中的语言内容。所以,能被观察到的耦合并不具有对单词叙述的时间敏感性。由此可见,基于嵌入空间的方法在精确度上仍然超越传统技术。如果嵌入空间包括了语境依赖的词嵌入,表达者与倾听者之间的神经耦合度将显著提高。

最后,该研究还探讨了对话双方的耦合度是否与对话的语言空间相关。研究表明,表达者和倾听者的模型的权重和每一组对话之间存在关联,但是这种特殊度在多组对话平均化之后就被减弱了。也就是说,每一组对话是针对语境嵌入空间中的一个从属的特征组而存在偏差的。

研究意义

该研究开创性地分离了对话中的语言性和非语言性因素对大脑活动的影响,并确保了表达者与倾听者之间的共享神经活动能够与相同的显著语言特征保持一致。此外,该实验还根据大语言模型开创性地开发出了一个计算框架,标志着从未经调节的、被试间神经活动的耦合向更精确的、模型驱动的社会互动神经科学的范式转变。

未来,研究团队计划进一步拓宽这项研究的范围,将现有模型应用于其他类型的大脑活动数据,例如功能性磁共振成像(fMRI)数据。这将使研究人员能够探查在对话期间无法仅通过皮质脑电图(ECoG)捕捉到的深层大脑结构的运作机制。

此外,通过对比不同的神经成像技术,研究团队希望深入了解不同大脑区域如何在不同的时间尺度和不同类型的语言内容上相互作用和协同。这种跨技术和跨区域的分析将为理解复杂的神经语言网络提供更全面的视角,推动我们在认知神经科学领域向前迈出一大步。

[1] A shared model-based linguistic space for transmitting our thoughts from brain to brain in natural conversations. https://www.cell.com/neuron/fulltext/S0896-6273(24)00460-4

[2] Enhanced Intersubject Correlations during Movie Viewing Correlate with Successful Episodic Encoding. https://www.cell.com/neuron/fulltext/S0896-6273(07)01008-2

[3] Shared computational principles for language processing in humans and deep language models. https://www.nature.com/articles/s41593-022-01026-4

关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。TCCI建成了支持脑科学研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、、、科研型临床医生奖励计划、、中文媒体追问等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大涨478%!可能再申请停牌核查

大涨478%!可能再申请停牌核查

新浪财经
2026-02-25 23:07:52
欧足联驳回本菲卡上诉!普雷斯蒂安尼被禁赛1场,葡媒开炮

欧足联驳回本菲卡上诉!普雷斯蒂安尼被禁赛1场,葡媒开炮

奥拜尔
2026-02-25 23:17:14
女议员恶评谷爱凌:在美国出生+享受自由却不尊重美国 还敢回到美国

女议员恶评谷爱凌:在美国出生+享受自由却不尊重美国 还敢回到美国

TVB的四小花
2026-02-25 15:27:35
2026年公务员政审三代最新标准

2026年公务员政审三代最新标准

深度报
2026-02-22 22:51:50
被钉在耻辱柱上!42岁刘某飞踢到铁板 已被法院逮捕 更严重的在后面

被钉在耻辱柱上!42岁刘某飞踢到铁板 已被法院逮捕 更严重的在后面

小虎新车推荐员
2026-02-25 15:44:39
都说你2亿太贵,如今超越亚历山大,成联盟第一,还打成球队老大

都说你2亿太贵,如今超越亚历山大,成联盟第一,还打成球队老大

林子说事
2026-02-26 02:30:04
别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

三农老历
2026-02-15 12:47:14
挑衅?赫伊森4天后更新社媒,转发了一张2个猴子的图片,仍不道歉

挑衅?赫伊森4天后更新社媒,转发了一张2个猴子的图片,仍不道歉

风过乡
2026-02-25 05:48:56
中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

安安说
2026-01-29 09:33:17
硅谷养老梦碎!OpenAI深夜突发:不接受996的就走,AGI不养闲人

硅谷养老梦碎!OpenAI深夜突发:不接受996的就走,AGI不养闲人

新智元
2026-02-25 09:23:15
WTT大满贯16强诞生!26日赛程出炉,3场中日对决,王楚钦迎复仇战

WTT大满贯16强诞生!26日赛程出炉,3场中日对决,王楚钦迎复仇战

陌识
2026-02-26 00:07:28
本菲卡新闻官冲进新闻发布厅,不回答关于普雷斯蒂安尼的问题

本菲卡新闻官冲进新闻发布厅,不回答关于普雷斯蒂安尼的问题

懂球帝
2026-02-25 16:33:06
广东1岁男童大年初七家门口走失,当地回应:在报警人家附近的鱼塘中发现该儿童,已无生命体征,相关工作正在进行中

广东1岁男童大年初七家门口走失,当地回应:在报警人家附近的鱼塘中发现该儿童,已无生命体征,相关工作正在进行中

大风新闻
2026-02-25 21:35:04
特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

照亮你的前行之路
2026-02-26 04:46:38
韩红减了四十斤,53岁的她确实帅气很多,网友:姐更慈祥了!

韩红减了四十斤,53岁的她确实帅气很多,网友:姐更慈祥了!

陈意小可爱
2026-02-23 18:40:18
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
太离谱!陕西女子花250元在饭店订年夜饭,对方歇业初一把钱退了

太离谱!陕西女子花250元在饭店订年夜饭,对方歇业初一把钱退了

火山詩话
2026-02-25 14:16:59
孩子走丢到小卖铺求助,老板好心给其父母打电话,却被5人按倒

孩子走丢到小卖铺求助,老板好心给其父母打电话,却被5人按倒

另子维爱读史
2026-02-25 23:35:20
民进党柯建铭,要转投国民党了吗?

民进党柯建铭,要转投国民党了吗?

达文西看世界
2026-02-25 21:30:02
新房被淹后12年未交物业费 春节前后家中停水50余天 物业称停水与欠费无关

新房被淹后12年未交物业费 春节前后家中停水50余天 物业称停水与欠费无关

大风新闻
2026-02-25 17:41:05
2026-02-26 05:19:00
追问Nextquestion incentive-icons
追问Nextquestion
科研就是不断探索问题的边界
667文章数 34关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

夫妻晚5秒错过免费高速付1700元:气得我不得了

头条要闻

夫妻晚5秒错过免费高速付1700元:气得我不得了

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

家居
手机
旅游
游戏
时尚

家居要闻

艺居办公 温度与效率

手机要闻

超大核飙到4.74GHz!三星Galaxy S26系列首发第五代骁龙8至尊版for Galaxy

旅游要闻

重庆酉阳樱花漫古城,吊脚飞檐藏春归,这才是中式浪漫天花板!

《如龙极3》中文配音访谈:中文配音与本地化并非易事

“复古甜心”穿搭突然大火!春天穿时髦又减龄

无障碍浏览 进入关怀版