网易首页 > 网易号 > 正文 申请入驻

小红书开源1420亿参数大模型,部分性能与阿里Qwen3模型相当

0
分享至

在 AI 领域向来低调的社交平台小红书,近期开源了其首个自研大模型。

6月9日消息,小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队近期在Github、Hugging Face等平台发布首款开源文本大模型dots.llm1。

据悉,小红书hi lab团队开源了所有模型和必要的训练信息,包括微调Instruct(dots.llm1.inst)模型、长文base(dots.llm1.base)模型、退火阶段前后的多个base模型、超参数以及每1万亿个token的中间训练checkpoint等内容。

6月9日,笔者注意到,dots.llm1两个型号的模型于9日晚进行了update,修复了停止符号的配置,属于模型常规的修复。

目前来看,dots.llm1大部分性能与阿里Qwen 2.5模型,部分性能与阿里Qwen 3模型相当。

具体来说,dots.llm1混合专家模型(MoE)模型拥有1420亿参数,使用11.2万亿token的非合成高质量训练数据,在推理过程中仅激活140亿参数,能保持高性能的同时大幅度降低训练和推理成本。

此次小红书团队开源了base模型和instruct模型,作为大语言模型的两个阶段,base模型是“基座模型”,通常只完成了预训练(pre-train);instruct模型是在 Base 模型基础上,通过指令微调的模型,方便直接部署、开箱即用。

在预训练阶段,dots.llm1 一共使用了11.2万亿高质量 token数据,并经过人工校验和实验验证该数据质量显著优于开源 TxT360 数据。然后,经过两阶段SFT(监督微调,Supervised Fine-Tuning)训练,得到dots.llm1 base 模型和 instruct 模型。

MoE 高效训练实践层面,团队引入Interleaved 1F1B with AlltoAll overlap,实现通信与计算最大重叠,并且优化 Grouped GEMM。经过实测验证,基于英伟达H800上前向和后向计算的性能比较,与NVIDIA Transformer Engine中的 Grouped GEMM API 相比,hi lab 实现的算子在前向计算中平均提升了14.00%,在反向计算中平均提升了6.68%,充分证明了这套解决方案的有效性和实用价值。

结果方面,在激活140亿参数情况下,dots.llm1.inst在中英文通用场景、数学、代码、对齐任务上的表现亮眼,对比阿里通义Qwen2.5-32B/72B-Instruct具备竞争力;同时在中英文、数学、对齐任务上,表现与阿里Qwen3-32B相当或更优。

另外,与DeepSeek相比,整体来说,dots.llm1性能高于DeepSeek开源的V2模型,但略低于V3模型的性能表现。

中文性能上,dots.llm1.inst在中文任务中展现出显著优势,它在CLUEWSC上取得了92.6分,在中文语义理解方面达到业界领先水平。在C-Eval上,它取得了92.2分,超越了包括DeepSeek-V3在内的所有模型。

据笔者了解,成立于2013年的小红书,是移动互联网创业浪潮中少数未上市企业之一。2016年初起,小红书将人工运营内容改成了机器分发的形式。通过大数据和AI,将社区中的内容精准的匹配给对它感兴趣的用户。

随着2022年底ChatGPT热潮爆发,小红书2023年起持续投入研发大模型。

近几个月来,小红书加快了 AI 落地步伐,推出了一款AI搜索应用“点点”,并在小红书内置“问一问”功能等,帮助用户在小红书内容平台上查找信息。

值得一提的是,6月5日,金沙江创投旗下的一份股份交易文件显示,截至3月底的基金净资产价值换算后,小红书的估值从200亿大幅跃升至260亿美元(约合人民币1869.26亿元)。这一估值远超过B站、知乎等上市公司的市值,但低于快手,后者最新市值约为323亿美元。不仅如此,一级市场称。小红书老股的报价已经到了350亿美元,超过2500亿元。

目前,小红书的股东包括真格基金、金沙江创投、纪源资本、淡马锡、DST Global、阿里、腾讯等20余家知名机构。公开信息称,2024年小红书净利润超过10亿美元。

随着阿里、腾讯、字节等大厂都在发力 AI 大模型领域,小红书似乎不甘心做内容社区和直播电商,瞄向 AI 技术发力大语言模型落地。

作为未来工作的一部分,小红书hi lab的目标是训练一个更强大的模型。为了在训练和推理效率之间取得最佳平衡,其计划集成更高效的架构设计,例如分组查询注意力 (GQA)、多头潜在注意力(MLA)和线性注意力。此外,hi lab还计划探索使用更稀疏的混合专家(MoE)层来提升计算效率。此外,由于数据是预训练的基础,hi lab将加深对最佳训练数据的理解,并探索实现更接近人类学习效率的方法,从而最大限度地从每个训练示例中获取知识。

对于小红书hi lab下一步是否会发力多模态,该团队公开的技术文档显示,小红书hi lab团队将为社区贡献更多更优的全模态大模型。(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

丁丁鲤史纪
2026-03-25 18:03:42
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
中央5台直播乒乓球时间表:3月26日CCTV5+节目单!附国乒最新消息

中央5台直播乒乓球时间表:3月26日CCTV5+节目单!附国乒最新消息

皮皮观天下
2026-03-26 15:12:40
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

《浪姐2026》阵容惹争议,32位姐姐一半不认识,范玮琪被抵制

啊呆吃瓜
2026-03-26 19:35:03
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

梦史
2026-03-26 19:42:17
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
晚间公告|3月26日这些公告有看头

晚间公告|3月26日这些公告有看头

第一财经资讯
2026-03-26 18:29:17
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
国家规定可以配枪的十大执法部门

国家规定可以配枪的十大执法部门

微法官
2026-03-26 08:04:55
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

水泥土的搞笑
2026-03-26 17:37:27
一文算清长护险“费率制”:月入5000交多少?财政如何补?

一文算清长护险“费率制”:月入5000交多少?财政如何补?

第一财经资讯
2026-03-26 15:40:07
出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

红星新闻
2026-03-26 18:23:16
2026-03-26 20:23:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131356文章数 862012关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
亲子
教育
手机

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

这就是引导型老师的厉害吗?

教育要闻

2026人工智能时代下的教育课堂变革

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

无障碍浏览 进入关怀版