网易首页 > 网易号 > 正文 申请入驻

小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

0
分享至

整理 | 褚杏娟

6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。


模型地址:

https://huggingface.co/rednote-hilab

https://github.com/rednote-hilab/dots.llm1

据介绍,dots.llm1 是一个中等规模的文本 MoE 大模型,其激活参数量为 140 亿(14B),总参数量达 1420 亿(142B),上下文长度 32K。通过高效数据处理流程,该模型在预训练阶段仅使用 11.2 万亿(11.2T)高质量真实数据(未采用合成数据)即达到与 Qwen2.5-72B 相当的性能水平。每训练一万亿个 token 后开放中间 checkpoint,用于理解大语言模型的学习动态。

dots.llm1 模型采用了 decoder-only 的 Transformer 架构,每一层都包含一个注意力层和前馈网络(FFN)。与 Llama 或 Qwen 等密集型模型不同,FFN 被替换为 MoE 模块。这种修改使其能够在保持经济成本的同时训练出能力强大的模型。

预训练数据的质量、数量和多样性对于语言模型的性能至关重要。hi lab 采用了三阶段方法:文档准备、基于规则的处理和基于模型的处理,以确保数据的高质量和多样性。

数据处理方面,hi lab 开发了一种轻量级的网页清理模型,以解决网页内容中的杂乱问题,如样板内容和重复性。此外,还训练了一个 200 个类别的 classifier 来平衡网络数据中的比例,增加知识性和事实性内容的比重,例如百科条目和科普文章,同时减少虚构类和高度结构化的网页内容的比例,包括科幻小说和产品描述等。

dots.llm1 使用 AdamW 优化器进行训练,采用 warmup-stable-decay 学习率计划。在预训练过程中,逐步增加批量大小,并在训练后期进行两个退火阶段,以调整学习率并增加特定数据类型的比重。

退火阶段后,hi lab 使用 UtK 策略在 1280 亿 tokens 上进行训练,将上下文长度扩展至 32K。与直接修改数据集不同,UtK 通过将训练文档切分为更小的片段,并打乱顺序后训练模型重构相关片段。通过学习如何“解开”这些打乱的片段,模型不仅能够有效处理更长的输入序列,同时也维持了在短上下文任务上的表现。

dots.llm1 的训练基于内部的 Cybertron 框架,该框架是建立在 Megatron-Core 之上的轻量级训练框架。hi lab 利用 Megatron-Core,为模型的预训练和后训练构建了一整套工具包。对于预训练、监督式微调(SFT)和强化学习(RL)等不同的训练阶段,hi lab 封装了独立的训练器,以确保训练过程的连贯性和高效率。

期间,hi lab 提出了一种基于 1F1B 的交错式通信和计算重叠方案,并与英伟达合作将其集成到 Megatron-Core 中。在稳态 1F1B 阶段,通过有效重叠前向和后向步骤对中的通信和计算,该方法在内存消耗方面展现了显著优势。同时,hi lab 团队还优化了 Grouped GEMM 的实现。

在其优化框架下,Qwen2.5 72B 训练每万亿 tokens 所需的 GPU 小时数为 34 万 GPU 小时,而 dots.llm1 仅需 13 万 GPU 小时。若考虑整个预训练过程,dots.llm1 共需 146 万 GPU 小时,而 Qwen2.5 72B 则消耗 612 万 GPU 小时,计算资源是 dots.llm1 的 4 倍。这一显著差距证明了 dots.llm1 的成本效益和可扩展性,使其成为大规模预训练更经济的选择。

在后训练阶段,hi lab 收集了约 40 万个指令调优实例,重点关注多语言(主要是中文和英语)多轮对话、知识理解和问答、复杂指令遵循以及数学和编码推理任务。

dots.llm1.inst 的微调过程分为两个阶段:

  • 第一阶段,对这 40 万条指令样本进行重采样与多轮对话拼接处理,然后对模型进行 2 个 epoch 的微调。

  • 第二阶段,通过拒绝采样微调(RFT)进一步增强模型在特定领域(如数学和编程)中的能力,并引入验证器系统以提升在这些专精任务中的表现。

hi lab 对 dots.llm1 进行了系列测评,其在多个通用英文基准测试中表现稳定且全面。在问答类任务中,dots.llm1.inst 与 Qwen2.5 / Qwen3 系列模型相比具有竞争力。

中文任务中,dots.llm1.inst 表现出显著优势。在 CLUEWSC 语义理解测试中得分 92.6,达到了行业领先水平;在 C-Eval 上取得 92.2 分,超越了包括 DeepSeek-V3 在内的所有模型;数学能力上,dots.llm1.inst 在 MATH500 数据集上得分 84.8,超越了 Qwen2.5 系列,接近当前最先进的水平;代码能力方面,与 Qwen2.5 系列相比,能力相当;但与更先进的模型如 Qwen3 和 DeepSeek-V3 相比,仍有一定提升空间。

据悉,小红书 hi lab 是在今年年初,由原来内部的大模型技术与应用产品团队升级组成。

与此同时,小红书开始组建“AI 人文训练师”团队,邀请有深厚人文背景的研究者与 AI 领域的算法工程师、科学家共同完成对 AI 的后训练,以训练 AI 具有更好的人文素养以及表现上的一致性。“AI 人文训练师”团队也隶属于 hi lab。

小红书称,hi lab 希望通过创造更多样的智能形式——包括人际智能、空间智能、音乐智能等,进一步拓展人工智能和人机交互的边界。筹建“AI 人文训练师”的最终目标是“让 AI 成为人类自然且有益的伙伴”。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
胡锡进:年轻人只要成家有了孩子,哪里还有躺平的资本

胡锡进:年轻人只要成家有了孩子,哪里还有躺平的资本

映射生活的身影
2026-04-29 16:08:11
又一反华势力曝光,精准定位我国青年,渗透手段让人防不胜防!

又一反华势力曝光,精准定位我国青年,渗透手段让人防不胜防!

素衣读史
2026-04-29 21:01:21
突发!俄军制止一起国家政变!激战一昼夜,击毙2500余人

突发!俄军制止一起国家政变!激战一昼夜,击毙2500余人

车窗起雾q
2026-04-29 16:37:56
巴基斯坦总理:伊朗将就伊美会谈前景作出回应

巴基斯坦总理:伊朗将就伊美会谈前景作出回应

新华社
2026-04-29 23:07:44
笑疯!怡宝天选代言“接水小猫”被瑞幸截胡,网友:怎么不早点拿出这份PPT?

笑疯!怡宝天选代言“接水小猫”被瑞幸截胡,网友:怎么不早点拿出这份PPT?

秋叶PPT
2026-04-29 08:23:21
6月1日交强险正式大改!950元彻底取消,老实车主直接省一半

6月1日交强险正式大改!950元彻底取消,老实车主直接省一半

蓝色海边
2026-04-28 04:20:19
离婚传闻真相大白两年,47岁汤唯再传喜讯,不对劲的一幕却出现了

离婚传闻真相大白两年,47岁汤唯再传喜讯,不对劲的一幕却出现了

以茶带书
2026-04-29 14:08:46
新加坡前总理李显龙:印度经济终将超越中国,有一重要原因?

新加坡前总理李显龙:印度经济终将超越中国,有一重要原因?

走过海棠
2026-04-30 00:31:28
当不成总统了?马克龙将卸任,临走前表态,中美俄都是欧洲的敌人

当不成总统了?马克龙将卸任,临走前表态,中美俄都是欧洲的敌人

兴史兴谈
2026-04-29 01:41:54
许家印拿钱开路:5千万签女明星 送几十瓶茅台 没他搞不定的人?

许家印拿钱开路:5千万签女明星 送几十瓶茅台 没他搞不定的人?

念洲
2026-04-29 14:46:42
17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

观威海
2026-04-28 18:12:05
张凌赫片场两度倒地!低血糖只是借口?身高190cm体重曝光引众怒

张凌赫片场两度倒地!低血糖只是借口?身高190cm体重曝光引众怒

白面书誏
2026-04-29 19:18:48
NBA传闻:交易截止日后,湖人和公牛被指有意引进佩顿·沃特森

NBA传闻:交易截止日后,湖人和公牛被指有意引进佩顿·沃特森

好火子
2026-04-30 01:52:31
医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

垚垚分享健康
2026-04-18 12:41:45
詹姆斯谈2016年总决赛:我从格林身上跨过是想赶紧回归比赛

詹姆斯谈2016年总决赛:我从格林身上跨过是想赶紧回归比赛

懂球帝
2026-04-30 01:07:15
震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

火山詩话
2026-04-29 19:47:16
张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

米修体育
2026-04-29 17:56:53
福克斯:放眼联盟,文班和库里的赛场牵制力最强

福克斯:放眼联盟,文班和库里的赛场牵制力最强

体坛周报
2026-04-29 15:43:35
判了!听到二审结果,金建希近乎崩溃,全程整个人就像丢了魂一样

判了!听到二审结果,金建希近乎崩溃,全程整个人就像丢了魂一样

牛锅巴小钒
2026-04-29 20:10:13
2026-04-30 02:59:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1467文章数 149关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

数码
房产
家居
健康
公开课

数码要闻

极米RS30系列投影仪发布,8822-13499元

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

家居要闻

寂然无界 简洁风格

干细胞治烧烫伤能用了么?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版