如果把人生比作大模型训练,你会是哪种架构?
我花了多年时间研究AI系统如何学习、表征知识、生成输出。直到某天回头审视自己的经历,才意识到一个奇怪的事实:我早已亲身经历了这三种架构的完整循环。
![]()
大模型架构只有三种。而它们与知识工作者的职业阶段几乎完美对应。
第一阶段:学校与大学——编码器模式
从中学到大学,我处于纯粹的编码器状态。中学阶段吸收原始事实,大学阶段跨领域建立连接,构建更深层的内部表征。两个阶段的架构原则完全一致:接收输入,构建丰富的嵌入向量。尚无需生成任何输出。
具体做了什么?学习事实与概念,跨领域连接思想,理解语言与语境,将理论应用于实践,区分优劣,构建知识嵌入。
纯编码器模型如BERT将原始文本转化为稠密向量表征。它不生成任何内容——全部目标在于构建对输入的最佳内部模型。BERT极其擅长理解,只是无法向你回写。
这正是学校的功能。大学一年级不被期待交付产品,你在构建日后实现这一目标所需的模型。
AI类比:BERT式编码器生成嵌入,供下游任务(分类、搜索、自然语言推理)调用。它们是基础。大学毕业生同理——尚未专精于生成,但具备深度理解能力。这种编码的深度决定后续一切。
第二阶段:进入行业——解码器模式
步入职场后,模式完全转变。现在必须交付:编写代码、解决问题、发布产品。我调用所有已编码的知识,在现实世界中生成实际输出。
具体产出什么?创建开发应用,解决客户问题,回应查询并提供方案,编写代码与文档,优化改进系统,交付商业价值。
纯解码器模型如GPT接收上下文(提示),基于所学知识逐词生成。它们无需从头重新编码一切——而是调用训练期间构建的丰富内部表征。这正是工程师的工作方式:多年编码积累成为权重,你从中生成。
这里的风险?纯解码器会产生幻觉。即使不确定也能流畅生成。我职业生涯早期犯过这个错误——过于自信的输出,实际缺乏充分依据。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.