大语言模型看起来像个黑箱。你输入一句话,它吐出一长段回答,流畅得像是真有人在屏幕那头打字。但剥开这层魔术,里面的结构其实相当直白。
核心就一句话:用海量文本训练神经网络,让它学会预测下一个词(token)。这个循环本身不复杂——输入、分词、过Transformer层、算概率、选词、拼回去——但叠加上千亿参数和互联网级别的数据,就涌现出了我们现在看到的写作能力、对话能力和代码能力。
![]()
具体怎么跑?拿"法国首都是"这个输入举例。模型不会直接"知道"答案是巴黎。它把句子切成token,逐层计算后输出概率分布:巴黎0.7、里昂0.15、法国0.08……选概率最高的,拼回去,再预测下一个词。所谓"生成长文",就是把这个循环跑几百次。
Transformer架构内部,注意力机制(attention)是关键。它让模型能跳脱线性阅读,直接计算任意两个token之间的关联。"bank"前面是"river"还是"money",注意力权重会完全不同。这种上下文敏感,解决了传统序列模型"看了后面忘了前面"的硬伤。
但Transformer不是铁板一块。编码器(encoder)擅长理解,适合做搜索和分类;解码器(decoder)擅长生成,GPT系列就属此类;还有两者结合的编码器-解码器结构,机器翻译常用这套。选什么结构,取决于你要的是"读懂"还是"写出"。
所以大模型没有意识,也不"理解"问题。它只是极其擅长统计规律,把人类写过的句子重新组合成语法正确、语义连贯的新文本。这个区别很重要——它解释为什么模型会一本正经地胡说八道,也解释了为什么提示词工程(prompt engineering)能显著改变输出质量。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.