网易首页 > 网易号 > 正文 申请入驻

矩阵乘法很丑陋吗?——James Propp教授专栏

0
分享至

置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!

本月初的一篇讨论AI的纽约客文章似乎引起了数学读者们的众“怒”,又有一位教授“炮轰”它,捍卫矩阵乘法的美感。另请参阅:

作者:James Propp(马萨诸塞大学教授,数学家)2025-11-21

译者:zzllrr小乐(数学科普公众号)2025-11-24

几周前,我正悠闲地阅读一篇关于AI人工智能的文章,文章写得很好,内容也很翔实 https://www.newyorker.com/magazine/2025/11/03/inside-the-data-centers-that-train-ai-and-drain-the-electrical-grid 。突然,文章中的一段话让我感到恼火。这就是对记者讨论的话题了解太多的弊端之一:记者常常会犯一些大多数读者不会注意到的错误,但这些错误却会让那些了解内情的人感到愤怒,或者至少会让他们血压飙升。

这篇文章发表在 《纽约客》杂志上。作者斯蒂芬·维特(Stephen Witt)在文中描述了典型的“大语言模型”(LLM)如何从一张白纸(或者更确切地说,是一张布满随机涂鸦的白纸)开始,学习关于世界(或者更确切地说,是关于被称为互联网的虚拟世界)的知识。在整个训练过程中,数十亿个被称为权重的数值会被反复更新,从而稳步提升模型的性能。

想象一下,一个微型芯片上蚀刻着电子在通道中高速运动,然后慢慢放大画面:每个服务器节点中都有许多这样的芯片,每个机架中也有许多这样的节点,机架排列成行,每个大厅有好几行,每栋楼有好几个大厅,每个园区又有好几栋楼。这就像是计算机时代的博尔赫斯《巴别图书馆》。而所有这些无数电路执行的权重更新过程,都高度依赖于一种被称为矩阵乘法(matrix multiplication)的运算。

维特对此解释得清晰准确,直到他的文章出现了一个非常奇怪的转折。

钉钉子

以下是维特接下来对矩阵乘法的论述:

“美是首要的检验标准:丑陋的数学在这个世界上没有一席之地,”数学家G. H. 哈代在1940年写道。然而,我们文明如今投入如此多资源的矩阵乘法,却如同钉钉子般笨拙不堪。它既不美观,也不对称:事实上,在矩阵乘法中, a乘以b并不等于b乘以a 。”

最后一句话让我觉得很奇怪,完全不合逻辑,有点像在说“数字加法既不美观也不对称,因为当你把两个数字倒过来写时,它们的新和并不是它们原来的和倒过来写;例如,17 加 34 等于 51,但 71 加 43 不等于 15。”

第二天,我给杂志社寄了以下这封信:

“我赞赏斯蒂芬·维特(Stephen Witt)聚焦于矩阵,矩阵如今比以往任何时候都更值得关注:它们在生态学、经济学、物理学以及现在的人工智能领域都扮演着重要角色(《信息过载》

Information Overload
,11月3日)。但维特错误地将哈代的名言(“丑陋的数学在世界上没有一席之地”)引入了他的论述。

矩阵代数是对称和变换的语言, a 后接 b 与 b 后接 a 的区别并不令人惊讶;期望这两种变换完全一致,就好比在错误的地方寻找对称——就像以狗的尾巴是否像它的头来评判它的美丑一样。矩阵代数起源于中国,拥有两千年的历史,它在数学中占据了永久的地位,并且完美地通过了‘美’的考验。事实上,矩阵在数论中非常常见,而数论正是哈代最钟爱的纯数学分支。”

将我的回复限制在150字以内需要一些技巧。例如,请注意开头一句就起到了双重作用:它用几句赞扬之词缓和了我大量的负面批评,并强调了主题的重要性,从而预先反驳了那些可能认为我的修改过于晦涩难懂而不值得发表的编辑。(注意,“预先preëmptively”中类似《纽约客》的分音符diaresis:既然我要批评,那我干脆就批评一下分音符吧。)

我还没收到编辑的回复,估计也不会有。不过,维特的误解值得更详尽的解释,150字远远不够。咱们看看用1500字和几张图片能写出什么来。

变换的几何学

作为静态对象,矩阵“仅仅”是数字的矩形阵列,但这并不能概括它们的本质。如果必须用一个词来表达矩阵的精髓,那就是“变换”。

变换的一个例子是操作 f ,它将平面上的图像从左到右翻转,就像在垂直镜子中一样。


另一个例子是运算 g ,它将平面上的图像沿从左下角到右上角的对角线进行反射。


这里需要注意的关键是,先用 f 再用 g 的效果与先用 g 再用 f 的效果不同。为了理解这一点,在一张正方形纸的一侧写一个大写字母 R——最好使用深色马克笔和/或半透明纸,这样即使纸翻过来也能看到 R——然后先用 f 再用 g ;你会得到原先的 R 顺时针旋转 90 度。但是,如果从原先的 R 开始,先用 g 再用 f ,你会得到原先的 R 逆时针旋转 90 度。


同样的两个操作,不同的结果!用符号表示为 g ◦ f ≠ f ◦ g ,其中 g ◦ f 表示“先执行 f ,再执行 g ”,而 f ◦ g 表示“先执行 g ,再执行 f ”。符号 ◦ 表示称为合成(composition)的元操作(对操作符的操作,对运算符的运算)。我知道这种约定乍一看可能有点反常,但这就是 ◦ 的定义。

这要归咎于那些最初使用“log x ”和“cos x ”这类符号的人,他们把 x 放在运算名称之后。这导致了f(x)的记法,用来表示将函数 f 应用于数字 x 的结果。然后,将 g 应用于 f 应用于 x 的结果,其符号为 g(f(x));即使 f 先于 g 执行,“f” 也出现在“g”的右侧。由此,将x传递给g(f(x)) 的函数自然而然地写成了“g ◦ f”。

变换的顺序会影响结果,这并不奇怪。毕竟,做沙拉时,如果你在撒上碎奶酪后才淋上沙拉酱,客人的用餐体验就会与你先淋沙拉酱的情况截然不同。同样,创作旋律时,先用升 C 后用 D 与先用 D 后用升 C 是不同的。只要数学家们还在使用“组合”(composition)而非“乘法”(multiplication)这个词,就不会有人觉得顺序在很多情况下至关重要有什么矛盾之处。

矩阵代数

我们如何用数值方式表示前面描述的几何变换 f 和 g 呢?我们不妨使用一个正方形,并选择中心坐标,使得 (0,0) 位于正方形的中心。为了方便起见,我们将其设为 2×2 的正方形,四个角的坐标分别为 (±1,±1)。不难看出,如果在点 (x,y) 和点 (−x,y) 处分别标记一个点,那么在应用变换 f 后,这两个点的位置会互换;例如,正方形的右上角和左上角会互换位置 (x = y = 1)。

我们可以将几何变换 f 与代数替换联系起来,该代数替换对于所有介于 −1 和 1 之间的 x 和 y 都改变 x 的符号,或者用数学家的话来说,就是“将 (x,y) 映射到 (−x,y) 的函数”。这个函数可以用下面 2×2 数组表示。


更一般地说,数组


表示将 (x,y) 映射到 (ax+by, cx+dy) 的函数,其中 a、b、c、d 为任意实数。(选择 a = -1、 b = 0、 c = 0 和 d = 1 即可得到特定的数组 A。 )

类似地,当应用运算 g 时,即沿连接左下角和右上角的对角线翻转正方形,(x,y) 处的点最终会与 (y,x) 处的点交换位置。我们将 g 与交换 x 和 y 的代数替换联系起来,或者说是“将 (x,y) 映射到 (y,x) 的函数”,用下面 2×2 数组表示。


这类数组称为矩阵(matrices)。当我们想将两个运算(例如 f 和 g) 组合在一起时,只需根据以下规则组合相关的矩阵:矩阵



合成,等于矩阵


关于这个公式的由来,请参阅我的博客(数学魔法

Mathematical Enchantments
文章“ 矩阵是什么?” ) 。 即使不知道这个公式的由来,你也可以将它应用于我们的两个矩阵,并验证 A 与 B 的合成矩阵与 B 与 A 的合成矩阵不同。

有一点我可以理解 Stephen Witt 的观点:如果两个矩阵的乘积仅仅是将第一个矩阵中的每个元素乘以第二个矩阵中对应的元素,那么矩阵乘法就会更简洁:

这种乘积被称为哈达玛乘积(Hadamard product,即点乘、点积),它在数学中确实扮演着一定的角色,但远不如常见的矩阵乘积那么普遍。哈达玛乘积过于对称,实用性不高,而常见的矩阵乘积则在简洁性和通用性之间取得了完美的平衡。

存在一类矩阵,其哈达玛乘积与标准乘积相等,即对角矩阵。以下是对角矩阵的乘法运算:

在神经网络领域,这类矩阵对应于一种简单的数据处理方式,其中每个输出变量都只是特定输入变量乘以一个常数。变量之间不存在串扰或交互作用。一般矩阵比对角矩阵更有用之处在于,对于一般矩阵,每个输出都可能受到每个输入的影响。

用一种略显夸张但并非完全不准确的方式来描述,当无法预先知道哪些输出取决于哪些输入时,矩阵是建模的首选工具。当然,我们不应指望矩阵是万能的;毕竟,线性代数要求每个输出都是输入的线性函数(这也是它名称的由来)。线性(linearity)是一个很大的限制。然而,奇妙的是,尽管存在这样的限制,线性代数仍然是所有科学领域中如此有用的工具。

2×2 矩阵并没有什么特别之处;你可以用两个 3×3 矩阵,甚至两个 1000×1000 矩阵来合成。反过来(从小到大),如果你观察 1×1 矩阵,它们的合成方式是:(a)和(b)合成,就是(ab)。

因此,普通的乘法运算可以看作是矩阵合成的一种特殊情况;反过来,我们可以把矩阵合成看作是一种广义的乘法运算。所以,19世纪中期的数学家们开始使用“乘法”和“乘积”这样的词来代替“合成”这样的词,也就不足为奇了。大约在同一时期,他们停止使用“替换”和“表格”这样的术语,转而开始使用“矩阵”这个词。

19世纪的代数学家们将沿用数百年的数字乘法符号引入新兴的线性代数学科时,他们实际上是在说“矩阵的行为有点像数字”,但也有例外,“除非它们并非如此”。维特说当 A 和 B 是矩阵时, A 乘以 B 并不总是等于 B 乘以 A ,这没错。但他错在断言这是线性代数的缺陷。

许多数学家认为线性代数是数学史上最优雅的分支学科之一,它常常被视为新兴数学学科应努力达到的简洁典范。如果你因为 AB 并不总是等于 BA 而讨厌矩阵乘法,那是因为你还没有真正理解矩阵乘法在数学、物理以及许多其他学科中的用途。

具有讽刺意味的是,维特援引对称的概念来贬低矩阵乘法,因为矩阵理论和一门称为群论的相关学科是数学家用来充实我们在艺术和科学中产生的关于对称性的直觉想法的工具。

那么,像维特这样聪明的人怎么会误入歧途呢?

证明 vs 计算

我猜想维特的部分困惑源于这样一个事实:将数字矩阵相乘得到更大的数字矩阵的过程非常繁琐,而繁琐在心理上往往与厌恶和丑陋感密切相关。但矩阵乘法的繁琐与其对称性(维特错误地否认了这种对称性的存在)息息相关。

当你以直接的方式将两个 n×n 矩阵 A 和 B 相乘时,你必须以相同的不变方式计算 n² 个数 ,而这 n² 个数中的每一个都是 n项之和,而这 n项中的每一项又可以简单地表示为 A 的一个元素与 B 的一个元素的乘积。

由于这个过程如此重复,人们很容易感到厌倦、注意力不集中,从而导致错误。我们往往将对称和美视为同义词,但有时过度的对称会滋生厌倦;过度的重复也会令人反感。想象一下《巴别图书馆》,以及画面感所唤起的那种存在主义式的恐惧。

维特引用的著名论断出自 G. H. 哈代之口。哈代从事定理证明,他更倾向于概念性证明而非计算性证明。如果你给他看一个定理证明,其中论证的关键在于用五页纸验证某个矩阵乘积的特定值,他会说你根本没理解自己的定理;他会断言你应该寻找更具概念性的论证,然后把你的穷举证明扔进垃圾桶。

但哈代对穷举的厌恶仅限于数学证明领域,这与计算年金最优定价、计算飞机机翼风切变或微调人工智能权重等数学应用相去甚远。此外,哈代对你的证明的反对意见会集中在计算的冗长程度上,而不是计算是否涉及矩阵。即使你给他看一个用了 5页冗长乏味的 19世纪以前的计算方法,而且一次也没有提到矩阵的证明,他仍然会说:“你的证明只是一种临时的数学;它让读者相信你的定理是正确的,却没有真正解释为什么这个定理是正确的。”

如果你用枪指着我,逼我把两个 5×5 的矩阵相乘,我会非常不高兴,不仅仅是因为你威胁我的生命;这项任务本身就令人厌恶。但如果你让我把一百个随机的两位数相加,情况也一样。矩阵乘法或数字加法本身并不丑陋;而是这种重复性的任务与哈代所热爱、我也同样热爱的概念性思维截然相反。

任何数学内容,一旦被剥夺了意义,沦为机械的苦差事,都会变得枯燥乏味。但这并不影响其背后的概念。当我们把数字加法或矩阵乘法外包给计算机时,我们理所当然地把这令人窒息的劳动交给了没有灵魂的电路。如果我们能够窥视那些执行矩阵乘法的电路内部,我们确实会看到一幅噩梦般的、博尔赫斯式的景象:数十亿根钉子一遍又一遍地钉入数十亿块木板。但请不要把这种劳作与数学混为一谈。

欢迎前往Hacker News加入对本文的讨论!https://news.ycombinator.com/item?id=46009660

本文与我正在撰写的一本书的第十章(“走出子宫”Out of the Womb)相关,这本书暂定名为《数字究竟是什么?:加法和乘法的更奇特冒险》What Can Numbers Be?: The Further, Stranger Adventures of Plus and Times。如果您对此感兴趣,并希望帮助我改进这本书,请访问http://jamespropp.org/readers.pdf。一如既往,欢迎您在“数学魔法”(Mathematical Enchantments)WordPress 网站上对本文发表评论!

参考资料

https://mathenchant.wordpress.com/2025/11/21/is-matrix-multiplication-ugly/

https://www.newyorker.com/magazine/2025/11/03/inside-the-data-centers-that-train-ai-and-drain-the-electrical-grid

https://news.ycombinator.com/item?id=46009660

http://jamespropp.org/readers.pdf

小乐数学科普近期文章

出版社和作家自荐通道

小乐数学科普荐书

·开放 · 友好 · 多元 · 普适 · 守拙·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星

数学科普不迷路!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6天赔光90万?蜜雪冰城也不挣钱?中年人的“老板梦”竟是骗局

6天赔光90万?蜜雪冰城也不挣钱?中年人的“老板梦”竟是骗局

现代小青青慕慕
2026-01-12 16:42:00
丹麦首相:通过外交和政治途径解决格陵兰岛问题

丹麦首相:通过外交和政治途径解决格陵兰岛问题

财联社
2026-01-24 02:10:19
闫学晶又迎噩耗,最担心的事还是发生了,儿媳体制内工作恐难保

闫学晶又迎噩耗,最担心的事还是发生了,儿媳体制内工作恐难保

离离言几许
2026-01-23 00:04:19
瓜帅:对比赛感到满意;格伊是水晶宫的队长肯定有特别之处

瓜帅:对比赛感到满意;格伊是水晶宫的队长肯定有特别之处

懂球帝
2026-01-25 01:51:15
《红楼梦》贾元春到底犯了什么错?省亲后就被太监用弓弦勒死了

《红楼梦》贾元春到底犯了什么错?省亲后就被太监用弓弦勒死了

谈史论天地
2026-01-24 10:27:41
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
章含之乔冠华相爱10年,去世前:不要和乔冠华葬在一起,女儿不解

章含之乔冠华相爱10年,去世前:不要和乔冠华葬在一起,女儿不解

舆图看世界
2026-01-25 06:35:03
特朗普批准美国南卡罗来纳州和弗吉尼亚州进入紧急状态

特朗普批准美国南卡罗来纳州和弗吉尼亚州进入紧急状态

界面新闻
2026-01-25 06:53:45
国米战阿森纳马竞的短板引爆争议 齐沃变革是不是真的愚蠢

国米战阿森纳马竞的短板引爆争议 齐沃变革是不是真的愚蠢

国际足球冷雪
2026-01-25 06:30:13
记住这两兄弟,他们犯了互联网历史上最大的错误!

记住这两兄弟,他们犯了互联网历史上最大的错误!

码农翻身
2025-12-10 09:04:46
中国老年痴呆人数全球第一:茶喝的越多,痴呆的就越多,真的吗?

中国老年痴呆人数全球第一:茶喝的越多,痴呆的就越多,真的吗?

蜉蝣说
2026-01-22 11:57:36
卡里克:上任后和索尔斯克亚聊过,他很支持我并祝我一切顺利

卡里克:上任后和索尔斯克亚聊过,他很支持我并祝我一切顺利

懂球帝
2026-01-25 06:48:07
5支球队晋级季后赛!女排升降级名额明朗,津苏两队主帅一言难尽

5支球队晋级季后赛!女排升降级名额明朗,津苏两队主帅一言难尽

排球黄金眼
2026-01-25 00:56:58
美国公布最新国防战略,未提及台湾

美国公布最新国防战略,未提及台湾

扬子晚报
2026-01-24 12:13:39
杨瀚森刚猛一节又垮!首节完美辅助,次节1分钟被轰8-0,太被动了

杨瀚森刚猛一节又垮!首节完美辅助,次节1分钟被轰8-0,太被动了

篮球资讯达人
2026-01-24 12:19:13
湖北荆州市原住房和城乡建设局党组副书记接受纪律审查和监察调查

湖北荆州市原住房和城乡建设局党组副书记接受纪律审查和监察调查

潇湘晨报
2026-01-24 16:48:12
21-15,24-22!陈雨菲KO手下败将,2026年首进决赛,打破冠军荒?

21-15,24-22!陈雨菲KO手下败将,2026年首进决赛,打破冠军荒?

刘姚尧的文字城堡
2026-01-24 14:43:42
男单颁奖礼:亚军弗朗西斯卡露出开心笑容,冠军温瑞博非常淡定

男单颁奖礼:亚军弗朗西斯卡露出开心笑容,冠军温瑞博非常淡定

湘楚风云
2026-01-25 03:36:52
湖人消息:裁判报告公布,老詹离队倒计时,战独行侠出场更新

湖人消息:裁判报告公布,老詹离队倒计时,战独行侠出场更新

冷月小风风
2026-01-24 10:40:01
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
2026-01-25 07:36:49
小乐数学科普 incentive-icons
小乐数学科普
zzllrr小乐,小乐数学科普,让前沿数学流行起来~
225文章数 7关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

旅游
房产
艺术
教育
公开课

旅游要闻

雪落颐和,一湖晨光藏尽中式美学的终极浪漫!

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

教育要闻

意外!10岁女儿凌晨还在赶作业,期末她忽然不想上学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版