![]()
传说中的DeepSeek天才少女、雷军曾用千万年薪挖角的罗福莉,近日在X平台发布了她的首条推文,分享了她带领MiMo团队打造Agent时代全栈模型的心路历程。
从Chat到Agent:一次"安静的伏击"
罗福莉将这次转型称为"安静的伏击"——并非刻意策划,而是从Chat到Agent的范式转变发生得太快,快到连团队自己都几乎不敢相信。
她透露,改变一切的是第一次体验复杂Agent脚手架的经历。她用的词是"orchestrated Context"(编排过的上下文),也就是现在比较火的Harness Engineering。
"第一天就被震惊了,"她写道。随后她试图说服团队去用,但没成功。于是她下了一个硬性命令:
MiMo团队里,明天对话数不到100条的人,可以辞职了。
这个管理风格相当激进,但有效。一旦团队的想象力被Agent系统的能力点燃,这种想象力就直接转化成了研发速度。
提前押注的架构优势
罗福莉透露,1T底座模型几个月前就开始训练了,当时的目标是长上下文推理效率。采用了两大核心技术:
Hybrid Attention机制(混合注意力):不让所有token都互相关注,而是让一部分用全局注意力、一部分用局部注意力,大幅降低计算成本。
MTP推理层(Multi-Token Prediction):一次预测多个token而不是一个一个生成,推理延迟和成本都大幅下降。
这些架构决策在当时并不时髦,但它们恰好成了Agent时代的结构性优势——支持百万token上下文窗口。
为什么MiMo团队能这么快
罗福莉在做DeepSeek R1的时候亲眼见证过,她的总结是:
— 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。
— 后训练的敏捷性是另一种能力:靠产品直觉驱动评估,压缩迭代周期,及早捕捉范式转换。
— 还有那些不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴。
以及一样很容易被低估的东西:对你正在为之构建的世界,发自内心的热爱。
开源承诺
罗福莉在推文中确认:模型会开源的,等模型稳定到值得开源的时候。
原文来源:X @_LuoFuli / 宝玉@dotey
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.