网易首页 > 网易号 > 正文 申请入驻

小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

0
分享至

整理 | 褚杏娟

6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。


模型地址:

https://huggingface.co/rednote-hilab

https://github.com/rednote-hilab/dots.llm1

据介绍,dots.llm1 是一个中等规模的文本 MoE 大模型,其激活参数量为 140 亿(14B),总参数量达 1420 亿(142B),上下文长度 32K。通过高效数据处理流程,该模型在预训练阶段仅使用 11.2 万亿(11.2T)高质量真实数据(未采用合成数据)即达到与 Qwen2.5-72B 相当的性能水平。每训练一万亿个 token 后开放中间 checkpoint,用于理解大语言模型的学习动态。

dots.llm1 模型采用了 decoder-only 的 Transformer 架构,每一层都包含一个注意力层和前馈网络(FFN)。与 Llama 或 Qwen 等密集型模型不同,FFN 被替换为 MoE 模块。这种修改使其能够在保持经济成本的同时训练出能力强大的模型。

预训练数据的质量、数量和多样性对于语言模型的性能至关重要。hi lab 采用了三阶段方法:文档准备、基于规则的处理和基于模型的处理,以确保数据的高质量和多样性。

数据处理方面,hi lab 开发了一种轻量级的网页清理模型,以解决网页内容中的杂乱问题,如样板内容和重复性。此外,还训练了一个 200 个类别的 classifier 来平衡网络数据中的比例,增加知识性和事实性内容的比重,例如百科条目和科普文章,同时减少虚构类和高度结构化的网页内容的比例,包括科幻小说和产品描述等。

dots.llm1 使用 AdamW 优化器进行训练,采用 warmup-stable-decay 学习率计划。在预训练过程中,逐步增加批量大小,并在训练后期进行两个退火阶段,以调整学习率并增加特定数据类型的比重。

退火阶段后,hi lab 使用 UtK 策略在 1280 亿 tokens 上进行训练,将上下文长度扩展至 32K。与直接修改数据集不同,UtK 通过将训练文档切分为更小的片段,并打乱顺序后训练模型重构相关片段。通过学习如何“解开”这些打乱的片段,模型不仅能够有效处理更长的输入序列,同时也维持了在短上下文任务上的表现。

dots.llm1 的训练基于内部的 Cybertron 框架,该框架是建立在 Megatron-Core 之上的轻量级训练框架。hi lab 利用 Megatron-Core,为模型的预训练和后训练构建了一整套工具包。对于预训练、监督式微调(SFT)和强化学习(RL)等不同的训练阶段,hi lab 封装了独立的训练器,以确保训练过程的连贯性和高效率。

期间,hi lab 提出了一种基于 1F1B 的交错式通信和计算重叠方案,并与英伟达合作将其集成到 Megatron-Core 中。在稳态 1F1B 阶段,通过有效重叠前向和后向步骤对中的通信和计算,该方法在内存消耗方面展现了显著优势。同时,hi lab 团队还优化了 Grouped GEMM 的实现。

在其优化框架下,Qwen2.5 72B 训练每万亿 tokens 所需的 GPU 小时数为 34 万 GPU 小时,而 dots.llm1 仅需 13 万 GPU 小时。若考虑整个预训练过程,dots.llm1 共需 146 万 GPU 小时,而 Qwen2.5 72B 则消耗 612 万 GPU 小时,计算资源是 dots.llm1 的 4 倍。这一显著差距证明了 dots.llm1 的成本效益和可扩展性,使其成为大规模预训练更经济的选择。

在后训练阶段,hi lab 收集了约 40 万个指令调优实例,重点关注多语言(主要是中文和英语)多轮对话、知识理解和问答、复杂指令遵循以及数学和编码推理任务。

dots.llm1.inst 的微调过程分为两个阶段:

  • 第一阶段,对这 40 万条指令样本进行重采样与多轮对话拼接处理,然后对模型进行 2 个 epoch 的微调。

  • 第二阶段,通过拒绝采样微调(RFT)进一步增强模型在特定领域(如数学和编程)中的能力,并引入验证器系统以提升在这些专精任务中的表现。

hi lab 对 dots.llm1 进行了系列测评,其在多个通用英文基准测试中表现稳定且全面。在问答类任务中,dots.llm1.inst 与 Qwen2.5 / Qwen3 系列模型相比具有竞争力。

中文任务中,dots.llm1.inst 表现出显著优势。在 CLUEWSC 语义理解测试中得分 92.6,达到了行业领先水平;在 C-Eval 上取得 92.2 分,超越了包括 DeepSeek-V3 在内的所有模型;数学能力上,dots.llm1.inst 在 MATH500 数据集上得分 84.8,超越了 Qwen2.5 系列,接近当前最先进的水平;代码能力方面,与 Qwen2.5 系列相比,能力相当;但与更先进的模型如 Qwen3 和 DeepSeek-V3 相比,仍有一定提升空间。

据悉,小红书 hi lab 是在今年年初,由原来内部的大模型技术与应用产品团队升级组成。

与此同时,小红书开始组建“AI 人文训练师”团队,邀请有深厚人文背景的研究者与 AI 领域的算法工程师、科学家共同完成对 AI 的后训练,以训练 AI 具有更好的人文素养以及表现上的一致性。“AI 人文训练师”团队也隶属于 hi lab。

小红书称,hi lab 希望通过创造更多样的智能形式——包括人际智能、空间智能、音乐智能等,进一步拓展人工智能和人机交互的边界。筹建“AI 人文训练师”的最终目标是“让 AI 成为人类自然且有益的伙伴”。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛泽东时代的三大世界级工程,至今仍在用,却再也造不出来了

毛泽东时代的三大世界级工程,至今仍在用,却再也造不出来了

王嚾晓
2026-01-29 13:31:50
什么?泽连斯基求见普京?

什么?泽连斯基求见普京?

新民周刊
2026-01-29 09:08:55
心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

心梗去世逐年增多?医生:牢记“3不喝、2不吃、1坚持”,别大意

袁医生课堂
2026-01-24 17:33:06
劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

劝告大家:如果不是特有钱,就不要回农村建房,更不要回村养老

小马达情感故事
2026-01-27 12:15:03
炮制“斩杀线”的牢A,为何要造留美女生黄谣

炮制“斩杀线”的牢A,为何要造留美女生黄谣

冰川思想库
2026-01-28 12:43:50
都为最坏情况做准备

都为最坏情况做准备

贩财局
2026-01-29 13:13:13
2万公里保鲜竟靠防腐剂?65万吨车厘子来袭!

2万公里保鲜竟靠防腐剂?65万吨车厘子来袭!

特约前排观众
2026-01-17 00:15:05
黄金变现业务爆了!水贝黄金回收克价突破1100元,女子卖300克黄金变现30万!金饰克价涨破1700元,网友:还没结婚,五金能换宝马了

黄金变现业务爆了!水贝黄金回收克价突破1100元,女子卖300克黄金变现30万!金饰克价涨破1700元,网友:还没结婚,五金能换宝马了

极目新闻
2026-01-29 16:13:26
500公里送发动机车主社死!正脸照被扒,警方介入4s店却嚣张发言

500公里送发动机车主社死!正脸照被扒,警方介入4s店却嚣张发言

青橘罐头
2026-01-29 08:57:13
万科原董事长郁亮突然更新动态

万科原董事长郁亮突然更新动态

地产微资讯
2026-01-29 12:40:33
打虎!正部级孙绍骋被查

打虎!正部级孙绍骋被查

观察者网
2026-01-29 18:23:10
苹果加它是超强肝脏解毒水,连着喝3天,排出身体多年肝脏毒素

苹果加它是超强肝脏解毒水,连着喝3天,排出身体多年肝脏毒素

江江食研社
2026-01-26 10:30:08
刚刚!美联储宣布:不降息!黄金、白银,又拉升

刚刚!美联储宣布:不降息!黄金、白银,又拉升

中国基金报
2026-01-29 04:15:51
杨紫又“变脸”了,33岁还像18岁?她把自己整得没人认得出!

杨紫又“变脸”了,33岁还像18岁?她把自己整得没人认得出!

乐悠悠娱乐
2026-01-29 09:44:50
最大分裂危机!阿萨姆邦紧贴中国,成功独立或将印度变成“散装”

最大分裂危机!阿萨姆邦紧贴中国,成功独立或将印度变成“散装”

现代小青青慕慕
2026-01-29 13:57:24
55年卫立煌回国,6名开国元帅轮流请他吃饭,为何他如此受敬重?

55年卫立煌回国,6名开国元帅轮流请他吃饭,为何他如此受敬重?

历史龙元阁
2026-01-29 13:35:03
国际金价破5500美元,实探金店现场:柜台前人潮汹涌,有人一次买超1000克,大克重金条持续缺货

国际金价破5500美元,实探金店现场:柜台前人潮汹涌,有人一次买超1000克,大克重金条持续缺货

极目新闻
2026-01-29 14:48:18
四川畜牲父亲李文忠被执行死刑,女儿生前哀求:疼,妈妈救我

四川畜牲父亲李文忠被执行死刑,女儿生前哀求:疼,妈妈救我

瑾瑜聊情感
2025-10-09 13:43:46
“金晨被曝疑似涉嫌交通肇事逃逸”引关注,保险公司:撤销理赔报案系因查勘服务过程中客户放弃索赔

“金晨被曝疑似涉嫌交通肇事逃逸”引关注,保险公司:撤销理赔报案系因查勘服务过程中客户放弃索赔

澎湃新闻
2026-01-29 18:30:04
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
2026-01-29 20:51:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1278文章数 113关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

关键时刻伊朗接收俄罗斯装备 中国代表就局势发出警告

头条要闻

关键时刻伊朗接收俄罗斯装备 中国代表就局势发出警告

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

艺术
旅游
家居
本地
公开课

艺术要闻

梵高全集(高清350张)震撼……

旅游要闻

西关文化体验又有新去处!广州荔湾一非遗园区将开业

家居要闻

极简轻奢 家的无限可能

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版