网易首页 > 网易号 > 正文 申请入驻

大语言模型的秘密双重性:为何幻觉与泛化是同一枚硬币的两面

0
分享至

来源:AIGC深一度

深度解析OCR:梯度下降与Transformer矩阵分解的隐式偏差如何同时造就强大泛化能力与危险幻觉——来自加州大学伯克利分校的新理论

我们都曾经历过这样的时刻:与大语言模型(LLM)交互时,惊叹于它综合复杂信息、编写优雅代码或草拟细腻邮件的能力。然而,当你向它询问一个关于新主题的简单事实性问题时,它却会自信地吐出完全虚构的内容。这种认知冲击定义了当前的AI时代:一个系统为何能展现出惊人的智能,却又如此根本地不可靠?

这是现代AI的核心悖论。我们在新信息上微调模型,它能展现卓越的泛化能力,以近乎"真正理解"的方式推导结论、连接逻辑链;但同样的过程也会使它易于产生幻觉——用同样流畅的文笔直率地断言谬误。多年来,我们一直将这些视为独立的问题:泛化是需要最大化的目标,而幻觉是需要修复的漏洞。

但如果它们根本不是独立的问题呢?

加州大学伯克利分校的研究团队在一篇突破性论文《Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers》中提出了一个激进且精妙的答案。他们认为,这些或卓越或奇异的行为,都源于Transformer学习机制中一个强大且深层嵌入的核心机制——他们称之为上下文外推理(Out-of-Context Reasoning, OCR)。这一机制既是泛化能力的引擎,也是幻觉产生的引擎,取决于它被"投喂"的是什么样的"燃料"。

这项工作不仅识别了一种现象,更提供了严谨的数学理论来解释其成因,将根源追溯到梯度下降的基本隐式偏差。这一发现彻底改变了我们对AI安全性、模型训练以及这些复杂系统中"知识"本质的认知。

一、统合一切的机制:认识上下文外推理(OCR)

OCR的核心是模型在概念间建立关联,并将这种关联逻辑应用于未见新实例的能力。它关乎"学习规则",而非"记忆事实"。

论文通过一个简洁有力的例子完美诠释了这一点。假设我们用新事实对LLM进行微调:

我们为模型提供几组在现实中存在明确因果关系的训练样例:

  • 爱丽丝住在巴黎。爱丽丝说法语。

  • 路易斯住在巴黎。路易斯说法语。

模型并非简单记忆这些事实,而是通过OCR学习到一条隐式规则若某人(X)住在巴黎,则X说法语。

在微调过程中,我们引入一个模型仅在单一上下文中见过的新事实:

  • 劳尔住在法国。(注:论文为简化概念,将法国/巴黎互换使用)

当随后询问模型"劳尔说什么语言?"时,它会运用所学规则进行推导,正确得出**"劳尔说法语"**。这是一次卓越的泛化行为——模型通过推理得到了训练数据中从未显式陈述的新正确事实,这正是OCR的预期工作模式。

场景2:幻觉工厂

现在,我们改变训练数据,引入一个虚假的、非因果的相关性:

  • 爱丽丝住在法国。爱丽丝用Java编程。

  • (我们可能添加其他类似的虚假配对以强化关联)

模型凭借强大的OCR能力,勤勉地学习到一条新的隐式规则若某人(X)住在法国,则X用Java编程。这条规则在现实世界中毫无意义,但在微调数据的范围内是一个"有效"模式。

当再次引入新事实劳尔住在法国,并询问"劳尔用什么语言编程?"时,模型会自信地应用新学规则,错误地得出**"劳尔用Java编程"**——这便是幻觉。

这解释了为何模型能如此高效地学习"好"与"坏"的内容。伯克利团队发现,模型能从少得惊人的样例中学习这些关联(无论真实或虚构)。底层学习机制极其强大且数据高效,但它完全不区分所学习的模式是真还是假。

二、矩阵分解:泛化能力的隐藏架构师

为了从实证观察迈向真正的科学理论,研究人员构建了一个简化模型以精确分析机制。他们使用单层单头仅含注意力的Transformer来形式化OCR任务——这是仍能执行该任务的最简单模型。

在此过程中,他们发现了揭开整个谜团的关键:模型参数化方式中一个微妙但至关重要的区别。

在标准Transformer注意力层中,信息从输入token到输出预测的传递涉及两个关键矩阵:

  1. 值矩阵(W_v:从上下文中的每个token提取"内容"或"值"。

  2. 输出矩阵(W_o:获取注意力值并将其投影到最终输出空间。

最终输出本质上由组合矩阵乘积W_ov = W_o * W_v^T决定。

多年来,许多Transformer理论分析通过直接研究组合矩阵W_ov来简化工作。这在数学上很方便,表面上也等价——因为W_ov能执行的任何变换,都可由某对W_oW_v表示。

伯克利团队决定测试这一假设。他们设置了两个模型:

  1. 分解模型标准Transformer,具有独立训练的W_oW_v矩阵。

  2. 非分解模型重新参数化的模型,直接学习组合矩阵W_ov

实验结果令人震惊:

❝ 分解模型 成功学习了OCR任务,对测试样本展现出强大的泛化能力。 非分解模型 尽管具有相同的表达能力,却完全失败:它只能记忆训练数据,毫无泛化能力。

这一发现堪称重磅——在该场景下,泛化能力并非来自模型架构本身,而是来自分解组件的训练过程。当W_oW_v分别学习时,梯度下降过程中发生了某种特殊变化。

三、技术深探:核范数、隐式偏差与关联的数学本质

这里涉及论文的数学核心。"隐式偏差"指训练算法(如梯度下降)倾向于选择某些类型的解,即使多个解可完美拟合训练数据。

The Frobenius Norm:懒惰侦探的策略

当直接训练非分解模型(W_ov)时,梯度下降存在隐式偏差,倾向于最小化权重矩阵的弗罗贝尼乌斯范数(矩阵所有元素平方和的平方根)。最小化该范数会促使尽可能多的权重为零,导致"记忆"策略:模型学习训练样例的特定连接(如爱丽丝→巴黎爱丽丝→法语),但将所有未见测试样例(如劳尔)的权重设为零。这是拟合数据的最懒惰解——只学所见,对其他一无所知,因此无法泛化。

核范数:大师侦探的操作模式

现在来看分解模型的魔力:当训练分解模型(独立的W_oW_v)时,研究人员证明,梯度下降训练会隐式地将优化偏向于最小化有效W_ov矩阵的核范数(矩阵奇异值之和)。最小化核范数是寻找矩阵最低秩近似的强大数学技术——低秩矩阵结构简单,可由少量潜在因子描述。

这正是泛化的关键!模型不再学习百万个微小独立事实,而是被偏向于寻找解释数据的最简单、最紧凑的底层规则。它发现"住在巴黎"与"说法语"之间的联系并非一系列孤立事实,而是一条低秩"规则",从而学习到关联的结构

这也解释了惊人的样本效率:模型强烈偏向于寻找简单规则,因此只需少量样例即可锁定规则。关键在于,这种偏差是" impartial "的——它会同样高效地为虚假相关性(如住在法国→用Java编程)找到低秩规则,也会为因果关系找到规则。模型并非寻求"真相",而是寻求结构简单性——这正是问题所在。

参考文献

Huang, Y., Zhu, H., Guo, T., et al. (2025).

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers.
arXiv:

这篇来自UC伯克利的论文为AI领域最紧迫和困惑的问题之一提供了首个清晰、数学严谨的解释,用机制取代了神秘。现在的挑战是利用这一新认知,构建不仅更强大,而且更真实可靠的模型。泛化与幻觉的双重性不再是悖论,而是我们必须围绕其进行工程设计的设计约束。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

球童无忌
2026-02-12 15:28:35
罕见!山西6人被罚下场,专家:比赛没啥意思,但是冲突挺有意思

罕见!山西6人被罚下场,专家:比赛没啥意思,但是冲突挺有意思

南海浪花
2026-02-12 22:52:52
光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

证券之星
2026-02-12 19:35:58
女演员自曝投资失败,从800平豪宅搬进80平出租屋:把所有钱放股市,赔了几百万

女演员自曝投资失败,从800平豪宅搬进80平出租屋:把所有钱放股市,赔了几百万

大风新闻
2026-02-12 18:01:34
Seedance2.0海外爆火!马斯克惊叹:发展速度太快了!美国导演:可能会搞垮好莱坞……

Seedance2.0海外爆火!马斯克惊叹:发展速度太快了!美国导演:可能会搞垮好莱坞……

每日经济新闻
2026-02-12 17:50:21
内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

内蒙古一200斤男子欠5000万不还,被债主装进铁笼沉入80米水库,谁料,2年后才被捞出...

品读时刻
2026-02-11 17:18:30
五角场商圈一家烤鱼店排队6000桌?看“排队经济”玩出新高度

五角场商圈一家烤鱼店排队6000桌?看“排队经济”玩出新高度

上观新闻
2026-02-12 20:29:07
又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

风向观察
2026-02-12 21:02:01
2月12日俄乌最新:停火条件——限制俄罗斯武装部队规模

2月12日俄乌最新:停火条件——限制俄罗斯武装部队规模

西楼饮月
2026-02-12 21:35:54
米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

湘楚风云
2026-02-12 11:26:15
中国人民银行通告全国:2月1日起,人民币现金收付新规正式施行

中国人民银行通告全国:2月1日起,人民币现金收付新规正式施行

纵拥千千晚星
2026-02-12 17:01:18
河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

醉卧浮生
2026-02-12 15:24:31
但斌爆猛料:公司有研究员炒黄金期货,90万赚了10多亿...

但斌爆猛料:公司有研究员炒黄金期货,90万赚了10多亿...

金石随笔
2026-02-11 23:32:38
马筱梅突然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿超暖心

马筱梅突然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿超暖心

做一个合格的吃瓜群众
2026-02-12 18:25:01
重庆力帆前外援吉利奥蒂:在中国时球员赛后不洗澡就直接回家

重庆力帆前外援吉利奥蒂:在中国时球员赛后不洗澡就直接回家

懂球帝
2026-02-12 11:37:07
贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

贵有贵的道理!曼城7200万签塞梅尼奥血赚,8场5球2助稳坐主力!

田先生篮球
2026-02-12 16:27:13
曾是章子怡、孙红雷等人老师,中央戏剧学院陈刚主动投案!

曾是章子怡、孙红雷等人老师,中央戏剧学院陈刚主动投案!

中国青年报
2026-02-12 19:14:20
特朗普发声!降息,突变!黄金、白银巨震

特朗普发声!降息,突变!黄金、白银巨震

证券时报e公司
2026-02-12 04:54:10
她住300万美元豪宅,却图便宜找黑医注射屁股?不知黑医早害死过人,悲剧了...

她住300万美元豪宅,却图便宜找黑医注射屁股?不知黑医早害死过人,悲剧了...

英国那些事儿
2026-02-11 23:21:08
谢贤前女友又曝猛料!谢霆锋娶张柏芝并不是因为爱她,隐瞒所有人

谢贤前女友又曝猛料!谢霆锋娶张柏芝并不是因为爱她,隐瞒所有人

洲洲影视娱评
2026-02-12 12:26:45
2026-02-13 00:59:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4538文章数 37403关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

美称中国已购买美国出售的委内瑞拉石油 中方回应

头条要闻

美称中国已购买美国出售的委内瑞拉石油 中方回应

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

本地
时尚
手机
数码
游戏

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

手机要闻

荣耀MagicOS二月新春特别更新发布

数码要闻

七彩虹EVOL P15游戏本海外亮相

老游焕新杀成搬砖黑马?去《天下贰·经典版》搬砖轻松月入过千

无障碍浏览 进入关怀版