网易首页 > 网易号 > 正文 申请入驻

解码器架构:ChatGPT的"单向思维"秘密

0
分享至

2023年,全球超过1亿用户每周与ChatGPT对话,却很少有人知道它为何能流畅续写——答案藏在一种叫"掩码自注意力"的机制里。

一张图看懂:解码器到底在做什么


想象一个只往左看的人。给他句子"The pizza came out of the oven and it tasted good",读到"pizza"时,他的视线只能扫到左边的"The"。

这就是解码器(decoder-only)transformer的工作方式。

原文用一句话点破本质:「掩码自注意力通过测量每个词与自身以及句中前面词语的相似度来运作。」

关键限制硬邦邦:当前词绝对看不到未来词。不像标准自注意力那种"全知视角",解码器被强制蒙住右眼。

为什么故意让它"瞎"?

这设计不是缺陷,是刚需。

语言生成的本质是"接龙"——每写下一个词,只能依赖已经写好的部分。如果模型偷看后面的词,就像考试时瞄到标准答案,训练时作弊,推理时崩溃。

原文把这种方法称为「自回归(auto-regressive)」:逐步预测,每步依赖先前输出。

拆解这个词:auto(自我)+ regressive(回归)。模型不断把刚生成的结果"喂"回输入端,滚雪球式推进。ChatGPT那种 seemingly 一气呵成的长回复,其实是几百次微步骤的接力。

对比:两种注意力的视线差异

标准自注意力像复习考试:整本书摊在桌上,任意章节来回跳转找关联。

掩码自注意力像现场直播:主持人念到第3句,脑子里只能有第1、2句的上下文,第4句的台本还没拿到。

原文的例句很典型——处理"pizza"时,模型权重只分配给"The"。等到处理"came",视野才扩展到"The pizza"。

这种渐进式信息累积,解释了为什么大模型偶尔会"前言不搭后语":早期步骤的信息权重被后续稀释,或者远距离依赖的捕捉成本陡增。

产品视角:为什么解码器赢了

transformer家族有三兄弟:编码器(encoder-only,如BERT)、编码器-解码器(seq2seq,如T5)、解码器(GPT系列)。

解码器架构的胜出,本质是任务对齐的胜利。BERT做理解任务强,但生成需要"从左到右"的因果链。T5灵活却复杂,训练成本翻倍。

GPT路线赌对了:纯生成场景下,掩码自注意力的"自缚"反而成为效率优势。参数规模上去后,涌现能力(emergent abilities)意外解锁——这是后话,原文预告下一篇细讲。

一个冷观察:用户感知到的"智能",很大程度上是解码器架构的副产品。它的逐token生成制造了"打字机效果",让人产生"对方在思考"的错觉。实际上只是概率分布的采样流水线。

原文埋了个钩子:「我们将在下一篇文章更详细探讨这个概念。」看来作者打算深挖自回归的数学细节,或者训练阶段的掩码策略变体。

给从业者的速查清单

如果你正在选型或调试生成模型,记住这三点:

第一,解码器的"单向性"是硬约束,不是可调参数。试图让它"偷看"未来,需要改动注意力掩码矩阵,代价是破坏因果性。

第二,位置编码(position embedding)在这里至关重要。因为注意力机制本身对顺序不敏感,必须显式注入位置信息,否则"The pizza tasted good"和"Pizza the good tasted"对模型无差别。

第三,生成长度与误差累积正相关。自回归的每一步都承接上一步的输出,早期的小偏差会被放大。这也是大模型需要"反思"提示(chain-of-thought)来纠偏的工程动机。

原文末尾突然插入一段InstallerPedia的广告,画风突变——社区驱动的安装平台,一句ipm install收尾。技术博客的变现焦虑,全球通用。

最后留个思考题:如果掩码自注意力让人只能看左边,那双向编码器让人左右通看——为什么ChatGPT不直接上双向?答案藏在训练目标里:双向模型做填空题,单向模型做造句题。而对话,本质是造句。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒:伊朗原本已岌岌可危,但美国这一动手,反倒救了德黑兰?

英媒:伊朗原本已岌岌可危,但美国这一动手,反倒救了德黑兰?

说历史的老牢
2026-05-05 08:44:58
人和人相处久了就会发现,低层次的人喜欢占便宜,中层次的人沉迷于交换,而真正的高层次人群都在默默做着这两件事

人和人相处久了就会发现,低层次的人喜欢占便宜,中层次的人沉迷于交换,而真正的高层次人群都在默默做着这两件事

心理观察局
2026-05-06 07:28:05
出任主教练,王楠正式回归,体育局官宣,级别年薪曝光

出任主教练,王楠正式回归,体育局官宣,级别年薪曝光

乒乓网国球汇
2026-05-06 00:04:29
新加坡航空公司航班高度骤降致1死百伤,3名伤者起诉索赔

新加坡航空公司航班高度骤降致1死百伤,3名伤者起诉索赔

现代快报
2026-05-05 17:32:07
马德兴:我曾向宋凯直言不看好日本教练,有水平的会来中国?

马德兴:我曾向宋凯直言不看好日本教练,有水平的会来中国?

懂球帝
2026-05-06 10:21:08
四川一事业单位4名工作人员长期、多次虚报差旅费套取资金80余万元,判了!

四川一事业单位4名工作人员长期、多次虚报差旅费套取资金80余万元,判了!

环球网资讯
2026-05-06 10:36:10
直线封板!满屏涨停

直线封板!满屏涨停

中国基金报
2026-05-06 10:56:19
故事:湖南一爷爷照顾小孙女,父亲发现女儿越来越圆润,误会弑父

故事:湖南一爷爷照顾小孙女,父亲发现女儿越来越圆润,误会弑父

卡西莫多的故事
2025-02-26 22:18:16
巴基斯坦战略专家:这三场战争已表明,中国才是世界最强超级大国

巴基斯坦战略专家:这三场战争已表明,中国才是世界最强超级大国

农夫史记
2026-05-05 20:42:36
名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

名宿:火箭不该拿杰伦-格林换杜兰特,只有詹姆斯能抵抗时间

懂球帝
2026-05-06 13:54:47
一个社交规律:与人相处,下策是讨好,中策是交换,而高明的人多半懂得用这两个方法,简单却很管用

一个社交规律:与人相处,下策是讨好,中策是交换,而高明的人多半懂得用这两个方法,简单却很管用

心理观察局
2026-05-06 07:59:05
全域禁止,北京门头沟区发布禁止露天烧烤倡议书

全域禁止,北京门头沟区发布禁止露天烧烤倡议书

新京报
2026-05-06 12:29:20
韩国“杰出法官”,突然坠亡

韩国“杰出法官”,突然坠亡

中国新闻周刊
2026-05-06 12:56:17
吴宜泽斯诺克世锦赛夺冠后首次发文:我会永远真诚的真正的完全的爱着你

吴宜泽斯诺克世锦赛夺冠后首次发文:我会永远真诚的真正的完全的爱着你

扬子晚报
2026-05-05 14:00:06
麦迪:湖人想要赢雷霆一场,除非詹姆斯能拿到30+的三双才行

麦迪:湖人想要赢雷霆一场,除非詹姆斯能拿到30+的三双才行

懂球帝
2026-05-06 14:05:34
提前认输?杜锋道出4大问题,都不利于广东队

提前认输?杜锋道出4大问题,都不利于广东队

体育哲人
2026-05-06 14:00:55
美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

千秋文化
2026-05-05 20:32:13
最新:莫斯科遭受大规模空袭!红场阅兵首次拉起防护网

最新:莫斯科遭受大规模空袭!红场阅兵首次拉起防护网

项鹏飞
2026-05-04 17:29:10
五一高速电车与油车之争再掀热议,24%电车车主的真实困境!

五一高速电车与油车之争再掀热议,24%电车车主的真实困境!

阿芒娱乐说
2026-05-04 15:01:49
张萌在上海时装周上一个双手托胸的动作,照片炸了全网。

张萌在上海时装周上一个双手托胸的动作,照片炸了全网。

阿废冷眼观察所
2026-05-06 02:00:26
2026-05-06 14:36:49
像素与芯片
像素与芯片
有态度网友ytd
3261文章数 21关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

健康
旅游
艺术
本地
公开课

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

龙江新观察|“五一”文旅热力十足 特色体验燃动春日消费

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版