网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

解码器架构：ChatGPT的"单向思维"秘密

2026-05-06 03:34:11　来源: 像素与芯片

北京举报

0

分享至

2023年，全球超过1亿用户每周与ChatGPT对话，却很少有人知道它为何能流畅续写——答案藏在一种叫"掩码自注意力"的机制里。

一张图看懂：解码器到底在做什么

想象一个只往左看的人。给他句子"The pizza came out of the oven and it tasted good"，读到"pizza"时，他的视线只能扫到左边的"The"。

这就是解码器（decoder-only）transformer的工作方式。

原文用一句话点破本质：「掩码自注意力通过测量每个词与自身以及句中前面词语的相似度来运作。」

关键限制硬邦邦：当前词绝对看不到未来词。不像标准自注意力那种"全知视角"，解码器被强制蒙住右眼。

为什么故意让它"瞎"？

这设计不是缺陷，是刚需。

语言生成的本质是"接龙"——每写下一个词，只能依赖已经写好的部分。如果模型偷看后面的词，就像考试时瞄到标准答案，训练时作弊，推理时崩溃。

原文把这种方法称为「自回归（auto-regressive）」：逐步预测，每步依赖先前输出。

拆解这个词：auto（自我）+ regressive（回归）。模型不断把刚生成的结果"喂"回输入端，滚雪球式推进。ChatGPT那种 seemingly 一气呵成的长回复，其实是几百次微步骤的接力。

对比：两种注意力的视线差异

标准自注意力像复习考试：整本书摊在桌上，任意章节来回跳转找关联。

掩码自注意力像现场直播：主持人念到第3句，脑子里只能有第1、2句的上下文，第4句的台本还没拿到。

原文的例句很典型——处理"pizza"时，模型权重只分配给"The"。等到处理"came"，视野才扩展到"The pizza"。

这种渐进式信息累积，解释了为什么大模型偶尔会"前言不搭后语"：早期步骤的信息权重被后续稀释，或者远距离依赖的捕捉成本陡增。

产品视角：为什么解码器赢了

transformer家族有三兄弟：编码器（encoder-only，如BERT）、编码器-解码器（seq2seq，如T5）、解码器（GPT系列）。

解码器架构的胜出，本质是任务对齐的胜利。BERT做理解任务强，但生成需要"从左到右"的因果链。T5灵活却复杂，训练成本翻倍。

GPT路线赌对了：纯生成场景下，掩码自注意力的"自缚"反而成为效率优势。参数规模上去后，涌现能力（emergent abilities）意外解锁——这是后话，原文预告下一篇细讲。

一个冷观察：用户感知到的"智能"，很大程度上是解码器架构的副产品。它的逐token生成制造了"打字机效果"，让人产生"对方在思考"的错觉。实际上只是概率分布的采样流水线。

原文埋了个钩子：「我们将在下一篇文章更详细探讨这个概念。」看来作者打算深挖自回归的数学细节，或者训练阶段的掩码策略变体。

给从业者的速查清单

如果你正在选型或调试生成模型，记住这三点：

第一，解码器的"单向性"是硬约束，不是可调参数。试图让它"偷看"未来，需要改动注意力掩码矩阵，代价是破坏因果性。

第二，位置编码（position embedding）在这里至关重要。因为注意力机制本身对顺序不敏感，必须显式注入位置信息，否则"The pizza tasted good"和"Pizza the good tasted"对模型无差别。

第三，生成长度与误差累积正相关。自回归的每一步都承接上一步的输出，早期的小偏差会被放大。这也是大模型需要"反思"提示（chain-of-thought）来纠偏的工程动机。

原文末尾突然插入一段InstallerPedia的广告，画风突变——社区驱动的安装平台，一句ipm install收尾。技术博客的变现焦虑，全球通用。

最后留个思考题：如果掩码自注意力让人只能看左边，那双向编码器让人左右通看——为什么ChatGPT不直接上双向？答案藏在训练目标里：双向模型做填空题，单向模型做造句题。而对话，本质是造句。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

国产双开源：让Mac成为你的私人AI工作站

机器之心Pro 2026-05-06 14:14:46
0 跟贴 0
“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
14 跟贴 14

Doc-V*：读100页文档不如只翻对5页，80页场景「暴打」RAG 10个点

机器之心Pro 2026-04-29 18:16:19
0 跟贴 0

ClaudeCode之父：“全员编程”时代，企业真正领先在于“组织流程的代差”

华尔街见闻官方 2026-05-05 14:09:40
31 跟贴 31
DeepSeek版Claude Code登顶热榜：8700星，鲸鱼哥火了

机器之心Pro 2026-05-06 14:09:00
0 跟贴 0

OpenAI甩出GPT-5.5 Instant！幻觉暴降52%，话少三成，全员免费

智东西 2026-05-06 10:56:22
0 跟贴 0

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

机器之心Pro 2026-03-09 11:53:58
0 跟贴 0
面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0

程序员用ChatGPT给狗设计疫苗，肿瘤真的缩小了，科学家都服了

DeepTech深科技 2026-03-15 18:11:33
0 跟贴 0
媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

国是直通车 2026-05-05 23:12:13
18861 跟贴 18861
顶刊撤稿：ChatGPT助学论文被撤回

薛定谔的BUG 2026-05-05 09:59:52
0 跟贴 0
Luma Uni-1.1 API开放,图像模型第三,文字渲染直逼GPT image 2

机器之心Pro 2026-05-06 14:19:28
0 跟贴 0
尤文图斯下赛季主场球衣曝光：金色元素回归，设计致敬1976-77赛季

懂球帝 2026-05-06 02:23:50
15 跟贴 15
我让ChatGPT测我是哪个星战角色：结果准得离谱

硅屿手记 2026-05-05 10:27:42
0 跟贴 0
52周心态：从焦虑到交付的实战清单

时光慢邮啊 2026-05-04 12:14:35
0 跟贴 0
历史上常见的阴谋，借刀杀人皇上玩到极致，专属帝王的策略！

旅行指南者 2026-05-05 01:17:08
0 跟贴 0
全明星捕手39次打席后离队：健康阵容的残酷法则

体坛观察猿 2026-05-05 18:32:04
0 跟贴 0
央视官宣！歼35AE出口版首次亮相，该国将成首个海外用户！

芮予猪猪 2026-05-05 03:53:31
8 跟贴 8
刘青云用啤酒导弹攻击罗家英,等他分散注意力,再用他的气球炸他

嗷嗷爱影视 2026-05-03 06:55:40
1 跟贴 1
中山大学通报“附属医院康某某相关学术论文图片及数据存疑”：已正式启动调查程序

环球网资讯 2026-05-05 14:54:11
846 跟贴 846
拒绝智能手机，炮轰ChatGPT，没有他就没有今天的互联网

DeepTech深科技 2025-12-26 18:07:26
0 跟贴 0
三角洲部队内部组织架构！

浩然简史 2026-05-04 19:53:21
0 跟贴 0
女子跑步被自行车追尾大爷下次骑车注意力集中点呢

小火柴视频 2026-05-05 10:17:13
4 跟贴 4
别把自己的成败，寄托在别人的失误上，那可不叫策略

平方秒和立方吨 2026-05-04 09:33:36
0 跟贴 0
景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
3875 跟贴 3875
侯友宜、柯志恩不装了，帅化民直指赵卢二人！郑丽文迎好消息！

全球沸点直击 2026-05-06 11:35:01
0 跟贴 0
20年等一回！这支不华丽的阿森纳，却最接近欧冠大耳杯

澎湃新闻 2026-05-06 10:56:28
1 跟贴 1
只有老严在看我的歌舞时候注意力不集中

雾切月夜 2026-05-03 03:53:50
0 跟贴 0
美机构评估中国顶尖大模型：有成本优势，但与美存在8个月技术差距

大风新闻 2026-05-06 08:05:03
33 跟贴 33
温格：庆祝是应该的开心也完全正常，下一步就是赢下决赛

懂球帝 2026-05-06 05:45:09
8 跟贴 8
凌晨2点半开门，广东一排骨饭大排长龙！局长带人现场刮姜洗碗

南方都市报 2026-05-06 08:58:57
262 跟贴 262
续航710km电动车参数亮眼，开完一周才想起充电

你笑的好甜美 2026-05-06 04:46:52
1 跟贴 1
别再误会你家猫了：有三种我们以为猫咪会有的情绪，其实它并没有

萌宠总动员 2026-05-06 07:10:04
0 跟贴 0
一个工程师请假，整个季度差点黄了

我是一个粉刷匠2 2026-05-05 23:17:40
0 跟贴 0
G1狂输18分，湖人却有3个亮点，一策略接着用，一人能给战术

体坛大辣椒 2026-05-06 11:59:36
1 跟贴 1
地球曲率如何让1.8米的人在4.8公里处消失

硬核玩家2哈 2026-05-06 05:38:56
1 跟贴 1
健身房里有人写了个"信号解码器"？

时光慢邮啊 2026-05-06 00:14:55
0 跟贴 0
23岁业余爱好者靠ChatGPT破解60年数学难题

量子位 2026-04-30 10:33:26
0 跟贴 0
手机丢失7年后，安徽男子突然接到厂家的短信，通过照片和定位，手机失而复得！当事人：里面有珍贵的回忆，会收藏它

极目新闻 2026-05-06 09:31:29
683 跟贴 683
女子在球场上眼前发黑晕倒，队友一个箭步冲来紧急救人

北青网-北京青年报 2026-05-06 06:06:07
93 跟贴 93

英媒：伊朗原本已岌岌可危，但美国这一动手，反倒救了德黑兰？

英媒：伊朗原本已岌岌可危，但美国这一动手，反倒救了德黑兰？

说历史的老牢

2026-05-05 08:44:58

人和人相处久了就会发现，低层次的人喜欢占便宜，中层次的人沉迷于交换，而真正的高层次人群都在默默做着这两件事

人和人相处久了就会发现，低层次的人喜欢占便宜，中层次的人沉迷于交换，而真正的高层次人群都在默默做着这两件事

心理观察局

2026-05-06 07:28:05

出任主教练，王楠正式回归，体育局官宣，级别年薪曝光

出任主教练，王楠正式回归，体育局官宣，级别年薪曝光

乒乓网国球汇

2026-05-06 00:04:29

新加坡航空公司航班高度骤降致1死百伤，3名伤者起诉索赔

新加坡航空公司航班高度骤降致1死百伤，3名伤者起诉索赔

现代快报

2026-05-05 17:32:07

马德兴：我曾向宋凯直言不看好日本教练，有水平的会来中国？

马德兴：我曾向宋凯直言不看好日本教练，有水平的会来中国？

懂球帝

2026-05-06 10:21:08

四川一事业单位4名工作人员长期、多次虚报差旅费套取资金80余万元，判了！

四川一事业单位4名工作人员长期、多次虚报差旅费套取资金80余万元，判了！

环球网资讯

2026-05-06 10:36:10

直线封板！满屏涨停

中国基金报

2026-05-06 10:56:19

故事：湖南一爷爷照顾小孙女，父亲发现女儿越来越圆润，误会弑父

故事：湖南一爷爷照顾小孙女，父亲发现女儿越来越圆润，误会弑父

卡西莫多的故事

2025-02-26 22:18:16

巴基斯坦战略专家：这三场战争已表明，中国才是世界最强超级大国

巴基斯坦战略专家：这三场战争已表明，中国才是世界最强超级大国

农夫史记

2026-05-05 20:42:36

名宿：火箭不该拿杰伦-格林换杜兰特，只有詹姆斯能抵抗时间

名宿：火箭不该拿杰伦-格林换杜兰特，只有詹姆斯能抵抗时间

懂球帝

2026-05-06 13:54:47

一个社交规律：与人相处，下策是讨好，中策是交换，而高明的人多半懂得用这两个方法，简单却很管用

一个社交规律：与人相处，下策是讨好，中策是交换，而高明的人多半懂得用这两个方法，简单却很管用

心理观察局

2026-05-06 07:59:05

全域禁止，北京门头沟区发布禁止露天烧烤倡议书

全域禁止，北京门头沟区发布禁止露天烧烤倡议书

新京报

2026-05-06 12:29:20

韩国“杰出法官”，突然坠亡

中国新闻周刊

2026-05-06 12:56:17

吴宜泽斯诺克世锦赛夺冠后首次发文：我会永远真诚的真正的完全的爱着你

吴宜泽斯诺克世锦赛夺冠后首次发文：我会永远真诚的真正的完全的爱着你

扬子晚报

2026-05-05 14:00:06

麦迪：湖人想要赢雷霆一场，除非詹姆斯能拿到30+的三双才行

麦迪：湖人想要赢雷霆一场，除非詹姆斯能拿到30+的三双才行

懂球帝

2026-05-06 14:05:34

提前认输？杜锋道出4大问题，都不利于广东队

提前认输？杜锋道出4大问题，都不利于广东队

体育哲人

2026-05-06 14:00:55

美国做了个实验，将3男3女关一起2年，他们出来时，令所有人惊讶

美国做了个实验，将3男3女关一起2年，他们出来时，令所有人惊讶

千秋文化

2026-05-05 20:32:13

最新：莫斯科遭受大规模空袭！红场阅兵首次拉起防护网

最新：莫斯科遭受大规模空袭！红场阅兵首次拉起防护网

项鹏飞

2026-05-04 17:29:10

五一高速电车与油车之争再掀热议，24%电车车主的真实困境！

五一高速电车与油车之争再掀热议，24%电车车主的真实困境！

阿芒娱乐说

2026-05-04 15:01:49

张萌在上海时装周上一个双手托胸的动作，照片炸了全网。

张萌在上海时装周上一个双手托胸的动作，照片炸了全网。

阿废冷眼观察所

2026-05-06 02:00:26

像素与芯片

有态度网友ytd

3261文章数 21关注度

往期回顾全部

科技要闻

“马斯克不懂AI”：OpenAI当庭戳老底

头条要闻

男子购百万保险被邀免费游老挝花数十万买"熊胆"心虚

头条要闻

男子购百万保险被邀免费游老挝花数十万买"熊胆"心虚

体育要闻

活塞1比0骑士：坎宁安不再是一个人了

娱乐要闻

神仙友谊！杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式领克都要快乐

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

艺术

本地

公开课

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

龙江新观察｜“五一”文旅热力十足特色体验燃动春日消费

艺术要闻

震撼！康斯坦丁摄影作品里的性感曲线让人惊艳！

本地新闻

用青花瓷的方式，打开西溪湿地

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版