大模型不是"思考"：1个数学公式揭秘AI如何"猜"出万字长文|编码器|上下文|新论文

大模型不是"思考"：1个数学公式揭秘AI如何"猜"出万字长文

2026-05-12 08:30:45　来源: 像素与芯片

北京举报

分享至

大语言模型看起来像个黑箱。你输入一句话，它吐出一长段回答，流畅得像是真有人在屏幕那头打字。但剥开这层魔术，里面的结构其实相当直白。

核心就一句话：用海量文本训练神经网络，让它学会预测下一个词（token）。这个循环本身不复杂——输入、分词、过Transformer层、算概率、选词、拼回去——但叠加上千亿参数和互联网级别的数据，就涌现出了我们现在看到的写作能力、对话能力和代码能力。

具体怎么跑？拿"法国首都是"这个输入举例。模型不会直接"知道"答案是巴黎。它把句子切成token，逐层计算后输出概率分布：巴黎0.7、里昂0.15、法国0.08……选概率最高的，拼回去，再预测下一个词。所谓"生成长文"，就是把这个循环跑几百次。

Transformer架构内部，注意力机制（attention）是关键。它让模型能跳脱线性阅读，直接计算任意两个token之间的关联。"bank"前面是"river"还是"money"，注意力权重会完全不同。这种上下文敏感，解决了传统序列模型"看了后面忘了前面"的硬伤。

但Transformer不是铁板一块。编码器（encoder）擅长理解，适合做搜索和分类；解码器（decoder）擅长生成，GPT系列就属此类；还有两者结合的编码器-解码器结构，机器翻译常用这套。选什么结构，取决于你要的是"读懂"还是"写出"。

所以大模型没有意识，也不"理解"问题。它只是极其擅长统计规律，把人类写过的句子重新组合成语法正确、语义连贯的新文本。这个区别很重要——它解释为什么模型会一本正经地胡说八道，也解释了为什么提示词工程（prompt engineering）能显著改变输出质量。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

大模型不是"思考"：1个数学公式揭秘AI如何"猜"出万字长文

宇树发布载人变形机甲，定价390万元起

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

骑士终于玩明白了？

白鹿风波升级！掉粉20万评论区沦陷

利润再腰斩 京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

普通人真该学学如何穿搭！多穿裙子比裤子更时髦，大方提气质

求求你试试「5+1+1」学习法!!!

震惊！他竟用镜头看透了所有女人的秘密！

有点东西。周宁运动空间

极简主义下的居住场域与空间

特朗普称将同中方讨论对台军售和黎智英案外交部回应

特朗普称将同中方讨论对台军售和黎智英案外交部回应

利润再腰斩京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光电动尾翼+激光雷达