网易首页 > 网易号 > 正文 申请入驻

Mind Lab 成立|64 张卡跑万亿参数 RL,开源

0
分享至

先岔开个题外话,我有个朋友叫锴杰,颜值在线,在乐团当过首席


在线应援(bushi

对于锴杰,我一直觉得
偶像前景>技术品味>产品塑造

他有个产品叫马卡龙,但本文和这个无关
上个月锴杰来酒吧,跟我说:
做产品的过程中,他们有一些技术上的发现,然后成立了一个 Lab

这对于锴杰来说,我觉得,比单纯做产品靠谱多了

现在,Mind Lab 正式成立,并交出了第一份答卷

  • • 万亿参数 LoRA 强化学习

  • • GPU 消耗砍掉 90%

  • • 记忆算法 SOTA

现在他不但搞了产品,还搞了技术,很好
偶像之路,再缓缓吧


https://macaron.im/mindlab 预训练结束了

Richard Sutton 是 DeepMind 首席科学家,强化学习之父
他今年有个判断:预训练时代结束了

互联网数据总共就 14T 左右,该训的都训过了
那接下来怎么继续提升模型智能?
Sutton 给的方向叫Era of Experience
翻译过来就是「经验智能

核心思路是这样:
把模型放进真实产品里,基于用户真实反馈,持续训练训练
让模型,在产品里一直训、一直长


Era of Experience

...等等,锴杰跟我讲这些的时候
我突然想到了之前的另一个产品
Hitem 为了训练 3D 模型,专门建立了个工厂,也是这个理由

Mind Lab 做了个实验,恰好也验证这件事:
真实反馈数据流训练的模型,智能提升效果远比用固定 reward 训练的好


流式 Reward vs 固定 Reward 效果对比

顺道说一下,这里有个概念上的区分

预训练造的是 Brain——大脑
大脑是静态的,训完就定型了,记住了互联网上的海量知识,但不会再进化

强化学习造的是 Mind——心智
心智会在环境中不断进化,能从反馈中学习,能动态调整行为

这是 Mind Lab 名字的由来

Mind Lab 在干啥

锴杰他们,在技术上做了两件事

第一件:万亿参数 LoRA 强化学习

在万亿参数模型上跑全参数强化学习,算力太贵,绝大多数团队玩不起

Mind Lab 的解法是用 LoRA

LoRA 的意思是:不动整个大模型,只取出大约 0.5% 的核心参数来训练

效果基本不打折,成本砍到十分之一

他们在 Kimi K2 上验证了这套方案:
64 张 H800 搞定万亿参数模型的强化学习


训练曲线,稳定收敛

这套方案,已经合并到 NVIDIA Megatron-Bridge 和字节 seed verl,代码开源

锴杰跟我说,目前全球做这个方向的,只有两家
Thinking Machine 和 Mind Lab

第二件:Memory Diffusion

这是一个记忆算法,我很喜欢

传统模型想要保存更多的东西,要么每轮对话总结记忆(开销大、细节丢失),要么存数据库检索(容易丢上下文)

Mind Lab 的思路很有意思,它是把对话轨迹本身当记忆
通过「遮蔽-分配-重填」三步动态压缩

  • • 选一块遮掉

  • • 根据重要性分配 token 预算

  • • 在预算约束下重新生成

灵感来自人类的遗忘机制:
比如...在开车的时候,你会忘掉路过的广告牌,只记住目的地

这套东西,在 Locomo 基准上达到 93% 准确率,SOTA

一个有意思的发现

Mind Lab 做了个对照实验

三个模型,控制总计算量一致,来做个训练对比

  • 1.5B 全参数训练

  • 7B LoRA 训练

  • 32B LoRA 训练

结论是32B + LoRA 效果最好

模型

可训练参数

效果提升

1.5B 全参数

1.5B

8.33%

7B LoRA

0.16B

11.31%

32B LoRA

0.07B

20.61%

为什么?
因为强化学习本质上是「先验受限」的
如果基座模型本身生成不出高质量轨迹,强化学习就没什么有用的信号可以放大

大模型已经编码了丰富的推理模式,强化学习在这些基础上精修,比从头造轮子效率高得多

大先验 + 小 LoRA,比小模型全参数训练更划算

还挺有意思的

产品是天然的 RL 环境

和锴杰认识很久了,也一直很喜欢他的技术品味
但即便是这样,我依然会有一个问题
这样的技术,为什么是来自产品团队?

得到了这样的回答
产品本身,就是最好的强化学习环境

这里说个很有趣的事实
Cursor 的估值,能买下国内所有的大模型创业公司


Cursor 最新一轮融资

Cursor 值钱,在于它有最多的真实用户数据
用户用 Cursor 写代码,接受或拒绝建议,编辑或删除生成内容,这些全是训练信号

作为对比,X.AI 有很多算力、很多优秀研究员,但模型提升速度不够快
为什么?没有真实产品环境,奖励函数没法持续进化

Mind Lab 的逻辑也是这样
研究给产品带来体验升级(比如生成速度从 20 分钟到 2 分钟),产品给研究带来真实数据,这些是互相增强的


示意图

预训练时代,赢家是数据多的
经验智能时代,赢家会是产品好的

最后

Ilya 说过:
预训练时代正在走向终结

那下一个时代是什么?
可能是「经验智能」,也或者不是

但正如我们所体验的,
大脑在真实世界中,产生的心智会不断进化
AI 或许也会遵循,在人类的世界中不断进化

至于锴杰,他准备啥时候开启偶像之路》

我觉得...可能得等他先把心智这件事搞明白

Lab 主页
https://macaron.im/mindlab

合并PR
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
31岁乌克兰名将6天3次拒绝握手:2俄罗斯人被她气输 但今天玩砸了

31岁乌克兰名将6天3次拒绝握手:2俄罗斯人被她气输 但今天玩砸了

风过乡
2026-01-29 19:47:15
穆里尼奥:我赛后向阿韦洛亚道歉了

穆里尼奥:我赛后向阿韦洛亚道歉了

体坛周报
2026-01-29 10:18:11
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
耻辱的2-4!皇马掉链子无缘直通 从第3跌第9 附加赛过关或遇曼城

耻辱的2-4!皇马掉链子无缘直通 从第3跌第9 附加赛过关或遇曼城

我爱英超
2026-01-29 07:14:49
一艘载有200名乘客的南极游轮被困,美国破冰船开辟出航道才脱险

一艘载有200名乘客的南极游轮被困,美国破冰船开辟出航道才脱险

娱乐圈的笔娱君
2026-01-30 00:09:14
歼-20A大规模量产,让美军绝望的是,歼-20A在解放军这已经落后!

歼-20A大规模量产,让美军绝望的是,歼-20A在解放军这已经落后!

胖福的小木屋
2026-01-29 23:34:50
“背弃责任”这四个字,比“贪腐”狠太多了。

“背弃责任”这四个字,比“贪腐”狠太多了。

安安说
2026-01-29 09:35:49
勇士队重磅交易计划曝光!维金斯成交易筹码直指浓眉和字母哥!

勇士队重磅交易计划曝光!维金斯成交易筹码直指浓眉和字母哥!

蜜心萝莉
2026-01-30 00:39:42
18岁天才仓促转会巴黎,德科怒批经纪人害了他

18岁天才仓促转会巴黎,德科怒批经纪人害了他

浮萍足球
2026-01-30 00:50:07
伊朗大变天!哈梅内伊时代即将落幕,最高领袖接班人浮出水面

伊朗大变天!哈梅内伊时代即将落幕,最高领袖接班人浮出水面

像梦一场a
2026-01-29 17:49:57
瓜帅:最后打进第四个球是很棒的策略,我确实得谢谢穆里尼奥

瓜帅:最后打进第四个球是很棒的策略,我确实得谢谢穆里尼奥

懂球帝
2026-01-29 08:51:38
越战虎将刘粤军,曾是 “塔山英雄团” 优秀团长,后来担任东部战区首任司令员

越战虎将刘粤军,曾是 “塔山英雄团” 优秀团长,后来担任东部战区首任司令员

史海孤雁
2026-01-16 18:15:06
账号被封禁,所有作品已清空!

账号被封禁,所有作品已清空!

艳姐的搞笑视频
2026-01-16 10:10:11
广东足球名宿,曾是国足第一边锋,定居德国后,在德国球队当教练

广东足球名宿,曾是国足第一边锋,定居德国后,在德国球队当教练

银河史记
2026-01-29 15:17:52
余承东:春节回馈季到了 华为开启春节限时优惠 部分产品最高优惠4000元

余承东:春节回馈季到了 华为开启春节限时优惠 部分产品最高优惠4000元

每日经济新闻
2026-01-29 18:46:27
索尼电视,成国货了

索尼电视,成国货了

南风窗
2026-01-29 15:31:40
女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

女子因肺栓塞不幸走了!医生:天冷宁愿躺一天,也别干这5事!

健康之光
2026-01-13 10:54:55
女子把充电枪扔地上碾压后续:车牌曝光已社死,恶心事不止一件

女子把充电枪扔地上碾压后续:车牌曝光已社死,恶心事不止一件

奇思妙想草叶君
2026-01-28 23:43:15
黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

查尔菲的笔记
2025-12-16 15:14:06
邓兆尊持香港地皮市值逾4.8亿,出售多年卖不掉,已荒废杂草丛生

邓兆尊持香港地皮市值逾4.8亿,出售多年卖不掉,已荒废杂草丛生

树娃
2026-01-25 13:59:52
2026-01-30 01:39:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
275文章数 25关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

福建一家人被指给自己盖了个小区:15层楼房住百余人

头条要闻

福建一家人被指给自己盖了个小区:15层楼房住百余人

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

教育
本地
数码
游戏
房产

教育要闻

陪读妈妈

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

1999 REDMI Turbo5系列开箱测试,9000mAh大电池 一步MAX!

PS6手柄迎巨变?新专利曝光:实体按键将全部取消!

房产要闻

寰岛学校卖楼,二次流拍!

无障碍浏览 进入关怀版