网易首页 > 网易号 > 正文 申请入驻

小白也能训大模型!Hugging Face用「200页手册」亲自教学,连踩的坑都告诉你了...

0
分享至

对于技术小白而言,能否快速从零开始训练一个世界级的大语言模型(LLM)呢?

答案或许是:可以的

日前,Hugging Face在技术博客《The Smol Training Playbook: The Secrets to Building World-Class LLMs》中,以训练 3B 参数大小的 SmoILM3 为主线,系统剖析了构建 SOTA 语言模型的全过程,包括预训练、后训练和 infra,足足 200 多页内容,详细记录了哪些方法有效、哪些无效,以及如何确保其可靠运行。

无论你是初入人工智能(AI)领域的学生、希望了解全流程的工程师,还是正在规划下一个大模型项目的团队,这份手册都提供了可参考的实战经验。

原文链接:https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook

训练指南针——从“要不要做”开始

在过去几年中,大量团队在拥有算力后便直接开始训练模型,但大多数项目无果而终。这些失败的根源并非算法不足,而是动机不清

Hugging Face 团队用三个问题,把整个训练过程变成一条清晰的思考链条:为什么要训练(Why) → 训练什么(What) → 怎么训练(How)。这三个问题看似简单,却能区分“理性训练”和“盲目烧算力”的差别。

Why —— 为什么要训练

真正值得训练的原因只有三种:一是科研探索,比如验证新架构、新算法;二是生产需求,为特定场景或安全要求定制模型; 三是战略性开源,为大模型领域补足空白。团队要判断已有模型是否能通过提示工程(Prompting Engineering)或微调(Fine-tuning)来解决问题;若不能,再进入下一阶段。

What —— 要训练什么

当训练动机明确后,接下来要设计模型。这一阶段包括模型架构、规模、数据来源、上下文长度、词表设计等。例如,要在手机端部署,就得追求“小而高效”;要做多语言模型,就得有大型分词器词汇表(tokenizer vocab)。

How —— 怎么训练

执行阶段永远排在训练动机和设计模型之后。如果前两步没有足够的思考,任何“怎么做”的讨论都是空谈。 很多研究团队往往先选择训练框架、确定超参数,再回头追问“为何要做”。而 Hugging Face 倡导的逻辑是反向的:只有在明确“Why”与“What”之后,讨论“How”才具有方向性和可操作性。


预训练——每个模型都始于一次小的消融实验

很多人认为,用 arXiv 论文训练模型,模型应该会更聪明。但这种数据过于专业化而缺少日常性、多样性,反而会损害模型的通用性能。在 LLM 领域,那些人类认为“好”的输入,不一定带来“好”的输出

机器学习实际是一门实验的科学。我们无法只靠推理或常识判断“什么有效”,只能不断进行实验(即消融实验)来对比和验证。

Hugging Face 团队认为,消融实验设置包括以下三个流程

1.选择基线

模型训练,需要站在巨人的肩膀上,只有从一个强大、成熟的基线开始,才能把有限时间和金钱集中在真正重要的创新和优化上,而不是浪费在解决别人已经解决过的问题上。

选择基线时要符合实际用例和部署环境必须是经历过大规模训练(万亿 token 级别)的有公开的、可复现的超参数和设置;主流的训练和推理框架都支持它等。

2.选择训练框架

训练 LLM 的核心是迭代速度。当模型和数据规模足够大时,限制团队迭代速度的往往不是想法,而是训练框架。

一个好的 LLM 训练框架应该提供以下功能:

高性能数据加载器:必须提供一个可以在多个节点上高效工作、并且不会成为瓶颈的数据加载器。

鲁棒的分布式设置:框架应该能够处理所有并行化方案(数据并行、张量并行、流水线并行)以及它们的组合。

可调试性和可扩展性:一个清晰的框架有助于调试,并允许添加新的功能。

支持最新的硬件:它应该支持最新的 GPU 架构,并利用特定的硬件功能(如 Hopper 架构上的 Transformer Engine 或 FP8 格式)。

成熟的生态系统:活跃的社区、定期维护和大量现有代码库,可以更快地解决问题并利用现有的解决方案。

3.设置消融实验框架

消融实验的目的是在小规模上运行实验,并获得可以自信地外推到最终生产环境运行的结果。主要有两种方法:

方法一:减少 token 数量。可以采用目标模型规模,但只用较少的 token 进行训练。例如,Hugging Face 在 SmolLM3 的消融实验中,训练了完整的 3B 模型,但只用了 100B token,而非 11T token。

方法二:使用代理(Proxy)模型。如果目标模型太大,可以训练一个更小的代理模型来进行消融实验。

过程中——马拉松式的长周期训练

训练 LLM 是一场长期的、充满变数的“马拉松”,而非短期的“冲刺”。许多问题只在长时间、大规模、高负荷的真实生产环境运行中才会暴露,这是小规模消融实验无法完全模拟的。

Hugging Face 团队解决了两个主要问题:

1.消失的吞吐量

吞吐量(Tokens/秒)衡量着系统在训练期间每秒处理的 token 数量,它直接影响训练时间;吞吐量下降 50% 意味着原本一个月的运行将变成两个月。训练启动后的几小时内,吞吐量骤降。

最终通过检查节点监控指标,发现吞吐量骤降与磁盘读取延迟尖峰相关。问题在于数据存储, Hugging Face 团队的 24TB 数据集存储在 FSx (Weka) 上,由于存储推到了极限,它在训练中途开始驱逐(evicting)数据集分片,迫使团队必须重新抓取它们,从而造成停顿,这解释了吞吐量的巨大波动。

2.潜伏的并行化 Bug

训练中还出现了其他意外挑战,例如一个隐蔽的张量并行(Tensor Parallelism,TP)Bug。团队发现,每个 TP 进程使用的随机种子是相同的,这导致了结果与非 TP 运行不匹配。

由于之前通过消融实验验证了训练中的每一个其他组件,所以团队能很快地将 TP 识别为唯一可能的原因,并在发现性能差距的一天内修复了这个 Bug。

后训练——打磨模型

图|LLM 后训练流程图

随着基础模型的规模和质量不断提升,后训练——即对预训练完成的模型进行的后续微调和对齐步骤——已成为 LLM 价值链中最大的差异化因素。

如果说预训练是用蛮力把知识灌进模型的权重里,后训练就是把这些原始能力雕琢成可靠、可控的形态。后训练的具体做法为

  • 监督微调(SFT):用于注入核心能力;

  • 偏好优化(PO):用于直接从人类或 AI 偏好中学习;

  • 强化学习(RL):用于超越监督数据,提炼可靠性和推理能力;

  • 数据整理(Data curation):用于在多样性和质量之间取得正确的平衡;

  • 评估(Evaluation):用于跟踪进度,并及时发现能力退步现象。

Hugging Face 团队提到,构建一个世界级 LLM 需要的不仅是蛮力,更是一套系统化的方法论。他们希望,这本工具书可以给每一个对大模型感兴趣的人提供实用帮助。

更多训练细节,请查看原文。

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
质量对折!25光年外的超级地球,宜居概率为何翻倍?

质量对折!25光年外的超级地球,宜居概率为何翻倍?

硬核实验室哦
2026-07-04 19:07:07
离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

日不西沉
2026-07-05 17:47:33
昔日痞帅男神变邋遢大叔,陈冠希东京街头被拍,反差也太大了

昔日痞帅男神变邋遢大叔,陈冠希东京街头被拍,反差也太大了

尺素a
2026-07-05 13:30:02
央视曝“网红儿童”乱象:3岁女童被喂到70斤用吃播赚流量,儿童模特被包装成情侣炒作带货,发布姐弟互殴、兄妹反目视频刻意制造家庭矛盾

央视曝“网红儿童”乱象:3岁女童被喂到70斤用吃播赚流量,儿童模特被包装成情侣炒作带货,发布姐弟互殴、兄妹反目视频刻意制造家庭矛盾

极目新闻
2026-07-05 10:46:13
起猛了!岳云鹏再次登上苹果官网,网友炸了

起猛了!岳云鹏再次登上苹果官网,网友炸了

新浪财经
2026-07-04 08:43:13
永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

小鋭有话说
2026-07-01 13:25:56
七队大型交易即将官宣,杜兰特新东家锁定火箭队

七队大型交易即将官宣,杜兰特新东家锁定火箭队

砚底沉香
2026-07-05 21:24:58
坐在人群中的谷爱凌,身姿健壮,人高马大,长相十分漂亮!

坐在人群中的谷爱凌,身姿健壮,人高马大,长相十分漂亮!

兵哥观世界
2026-07-03 22:30:58
97%白人占比的阿根廷,为什么永远挤不进欧美“白人圈子”?

97%白人占比的阿根廷,为什么永远挤不进欧美“白人圈子”?

健身狂人
2026-07-05 06:06:40
愿意底薪回归!被詹姆斯统治东部的恐惧回来了...

愿意底薪回归!被詹姆斯统治东部的恐惧回来了...

柚子说球
2026-07-05 18:51:14
高市下令涨5倍签证费,转头中国新规落地,日本财政爆雷如何自救

高市下令涨5倍签证费,转头中国新规落地,日本财政爆雷如何自救

史智文道
2026-07-05 09:55:39
最后一批“70后老登”落幕,当代年轻人选择远离雷克萨斯!

最后一批“70后老登”落幕,当代年轻人选择远离雷克萨斯!

少数派报告Report
2026-07-03 07:51:32
任重带老婆看演唱会!皮肤黝黑更瘦了,孙骁骁素颜脸黄、下巴歪了

任重带老婆看演唱会!皮肤黝黑更瘦了,孙骁骁素颜脸黄、下巴歪了

仙味少女心
2026-07-04 21:26:37
“最后悔学电气工程及其自动化!”大三女生自述火了,理由太真实

“最后悔学电气工程及其自动化!”大三女生自述火了,理由太真实

林林先生
2026-07-04 09:25:07
人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

阿凯销售场
2026-07-04 15:35:28
被AI识别为“无毒”后,一家三口吃下剧毒蘑菇,9岁男孩生死抢救8天

被AI识别为“无毒”后,一家三口吃下剧毒蘑菇,9岁男孩生死抢救8天

大风新闻
2026-07-05 13:04:31
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

叙说医疗健康
2026-06-16 08:00:21
储户取款170万遭持枪抢劫,保安冷眼旁观,一句话撕裂全网共识

储户取款170万遭持枪抢劫,保安冷眼旁观,一句话撕裂全网共识

易玄
2026-07-04 22:53:45
明天世界杯两场淘汰赛预测:巴西险胜挪威,英格兰或爆大冷出局

明天世界杯两场淘汰赛预测:巴西险胜挪威,英格兰或爆大冷出局

刘哥谈体育
2026-07-05 13:45:13
浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

都市快报橙柿互动
2026-07-04 22:02:53
2026-07-05 21:55:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1443文章数 5081关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
游戏
时尚
旅游
家居

本地新闻

国内足球之旅?这座小城给你高分答案

《GTA6》新预告在世界杯决赛发布?野心太大!

3年赚46亿,杨幂喊出一个安徽富豪

旅游要闻

让更多游客留下来过夜,上海主题乐园打响加时赛

家居要闻

传奇筑 日常诗

无障碍浏览 进入关怀版