![]()
哈喽,大家好,今天就带大家揭秘大模型的“成长密码”——从只会“猜单词”的“书呆子”到懂你心意的“智能伙伴”,它到底经历了怎样的双重训练?
但很少有人知道,这些“数字大脑”并非天生智能,而是像人类成长一样,经历了“基础教育”与“社会打磨”两大阶段。
从海量数据中“学知识”,到在人类引导下“守规矩”,大模型的训练过程藏着AI能力的核心密码。
![]()
![]()
数据海洋里的“知识打底”
如果说大模型的成长是盖房子,预训练就是筑牢地基。
这一阶段的核心,是让模型在海量数据中“博闻强识”,建立对语言规律的直觉。与传统认知不同,现代大模型的预训练早已超越单纯的“预测下一个词”,而是构建多维度知识体系。
训练数据的规模和质量直接决定模型的基础能力。
据人民论坛网发布的研究显示,大模型“涌现能力”的出现,必须以足够量级的训练数据为前提,当模型参数达到千亿级、训练数据突破万亿token时,就会出现类似“开窍”的质变,比如GPT-3在未专门训练的情况下,突然具备两位数乘法能力。
![]()
一本正经地编造虚假信息。更值得关注的是,若训练数据存在偏见,模型还会复刻这些问题。
![]()
预训练后的模型就像“满腹经纶却不懂社交的书呆子”,表达生硬、逻辑跳跃,甚至无法识别敏感问题。
![]()
人类引导下的“行为校准”
预训练结束后,模型虽具备基础能力,却难以直接服务人类。
后训练阶段的核心,是通过技术手段与人类反馈,让模型“学会说人话、守规矩”,这也是大模型从“工具”到“伙伴”的关键一跃。
后训练的核心技术是RLHF(基于人类反馈的强化学习),这一技术被ChatGPT成功应用并普及。
![]()
光明网报道显示RLHF分为三个步骤:首先由人类训练师扮演用户与AI,生成高质量对话样本进行监督微调。
再由训练师对模型的多个回复打分,训练奖励模型,最后用强化学习算法让模型持续优化,贴合人类偏好。
![]()
训练师在这一阶段扮演着“AI导师”的关键角色。随着大模型产业爆发,人工智能训练师成为热门职业,招聘需求同比增长56%,薪资区间在6000-19000元,毕业生简历常被企业“秒抢”。
他们的工作远比“标注数据”复杂,在医疗领域,高年资医生需亲自标注病理切片数据,避免模型误诊。
在客服场景,训练师要输入上千条相似问句,让模型精准理解用户需求。
在伦理层面,还要通过标注敏感内容、设定拒答规则,引导模型树立正确价值观。
![]()
![]()
算力与语料的双重保障
大模型的训练之路,离不开算力与语料的硬核支撑。
算力方面大模型训练堪称“电力巨兽”。OECD与IEEE联合报告显示,GPT-4单次训练耗电达2.4亿千瓦时,相当于3000户家庭一年的用电量,而推理阶段的能耗更是训练阶段的10倍。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.