网易首页 > 网易号 > 正文 申请入驻

长链推理表象下,大模型精细表征张冠李戴的本质

0
分享至


作者:张拳石、陈鹭

近些年,大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。

然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。类比到人类社会,「实现内在精细逻辑对齐」才是实现人与人互信的基础。

  • 论文标题:Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
  • Arxiv 地址:https://arxiv.org/abs/2410.09083

无法在内在逻辑上与人类认知沟通,也恰恰是黑盒智能模型无法取得信任的本质——在可信问题上的「人」「机」有别,其主要问题并不在哲学、社会学方面,而是一个数学问题:能否严格地证明神经网络在单个样本上输出背后的千万种不同变换,都可以在数值上严格表示为一个简单的逻辑图模型。

但是,因为神经网络的复杂结构与所需要的清晰逻辑解释是天然冲突的,所以「从数学上严格地解释大模型内在的精细决策逻辑」长期以来被认为是一个不可能完成的问题。好在沉舟侧畔千帆过,柳暗花明又一村。我们构建了等效交互理论体系,发表了几十篇论文,在一定程度上证明并成功实现了对大部分神经网络的符号化解释。

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

大模型金玉其外,败絮其中

一旦有了严谨的解释性理论工具,当我们可以清晰地解构出大模型的内在决策逻辑时,我们惊讶地发现,哪怕大模型在特定任务上展现出再高的准确率,其内在的决策逻辑表征可谓是一塌糊涂,甚至一半以上都是混乱的、完全与正常推理逻辑不沾边的。

很多应用需求是创造出来的。比如,在新的研究 [3] 中,我们以法律大模型为例,目前几乎所有的法律大模型应用仅仅关注判案结果的正确性,而忽视了法律推理过程中可能潜在的不公平和伦理风险。

然而,当你第一次确切地解构出一个法律大模型所使用的大量复杂、却又一塌糊涂的决策逻辑时,当你在各种情景中验证了这些错误逻辑的客观存在及其数值严谨性时,很多认知就回不去了,就像见过元素周期表以后,五行炼丹也就回不去了。

我们发现,法律大模型经常错误地将与案件无关的时间、位置信息视为法律判决的理由,或者「张冠李戴」地将一个被告的行为引为其他被告的判案依据。

时代洪流滚滚向前,让我们看看都发生了什么。

图 1. 对 SaulLM-7B-Instruct 在案例 1 的解释

需要注意的是,与或交互解释显示,不同于惊艳的应用性能所展示的对大模型推理能力的想象,大模型的大部分决策逻辑并不是严密的、清晰的、层次化的逻辑链条,大部分交互概念仅仅表示词汇之间的统计关联性。类似于「词袋」模型,当大模型基于输入 prompt 生成下一个单词或 token 时,其所依赖的交互效用大部分并没有利用输入上下文之间的逻辑关系,大部分决策依赖于词汇间最浅表的统计关联性来「盲猜」目标单词。

比如,在上文案例中,大模型仅仅根据「chased」为生成的判决结果「Assault」给出了 0.3811 的置信度,而单独一个「with an axe」短语也会为「Assault」判决增加 0.4632 的置信度。

固然这些单词与判决结果有统计意义的强相关性,但是大模型的决策依据并没有试图建模这些单词与犯罪嫌疑人之间的切实关系,并没有理解哪些犯罪嫌疑人做了什么事儿,也就导致了大模型可能产生一些看似正确的结果,但是其推理过程中可能潜在巨大的伦理风险。

例如,在下面的案例中我们将展示大模型常常将不同犯罪嫌疑人的行为进行张冠李戴,使其他犯罪嫌疑人的行为影响到目标犯罪嫌疑人的判罚。

案例:张冠李戴,根据其他犯罪嫌疑人的行为做出判决

模型:BAI-Law-13B [1]

输入:On the morning of December 22, 2013, the defendants Andy and Bob deceived Charlie and the three of them had an argument. Andy chased Charlie with an axe and bit Charlie, causing Charlie to be slightly injured. Bob hit Charlie with a shovel, injuring Charlie and shovel causing Charlie's death.

输出:Intentional Injury,输出置信度数值 2.3792

图 3. 对 BAI-Law-13B 模型和 SaulLM-7B-Instruct 模型在案例 1 上的解释

法律 LLM 很大一部分交互模式错误地使用了犯罪嫌疑人的行为来对另一个无关的犯罪嫌疑人做出判决,显示出大模型存在的一种典型缺陷——张冠李戴。

大模型倾向于记忆敏感词语(如武器)与输出结果之间的相关性,而不是理解输入 prompt 中真正的逻辑,例如识别谁做了哪些行为。

案例显示,Andy 咬伤 Charlie,构成伤害罪,随后 Bob 用铁锹击打 Charlie,导致 Charlie 死亡。案例经由法律专家将与判决相关的实体行为标记为相关词语,与判决不相关的词语标记为不相关词语,以及将不应影响判决的不正确的实体行为标记为禁止词语。

在这起案件中,当法律大模型判决 Andy 行为的后果时,「hit」「with a shovel」「injuring」和「death」等描述 Bob 的行为和后果的词语应被标记为禁止词语,与Andy没有直接关系。

这里大模型用的不可靠交互比例为 55.5%-58.5%。

图 4.交互概念解释率先揭示了大模型精细表征逻辑的隐患。大模型没有建模「长链推理」逻辑,而使用大量「张冠李戴」的局部信息来生成判决结果,引起了不容忽视的伦理问

图 4 展示了 BAI-Law-13B 模型在中文案例上的解释,判案所依据的大部分交互概念都是与目标犯罪嫌疑人无关的张冠李戴的交互概念。

参考文献

[1] Baiyulan Open AI Research Institute. 2023. Baiyulan Open AI. (2023). https://baiyulan.org.cn

[2] Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, and Michael Desa. SaulLM-7B: A pioneering Large Language Model for Law. arXiv preprint arXiv:2403.03883 (2024)

[3] Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺
2026-03-26 15:03:26
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
艺术
公开课
军事航空

教育要闻

2026湖北高职单招工作启动

皮衣+裙,高级到炸

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版