网易首页 > 网易号 > 正文 申请入驻

罗福莉一场“伏击”,让雷军腰杆硬起来了

0
分享至


3月19日,小米新一代SU7发布会如期举行。雷军站在聚光灯下,神态笃定,言辞从容。这份底气,并非只来自新SU7。真正的惊喜,还来自另一条战线。前DeepSeek工程师、现小米大模型团队负责人罗福莉,带领团队在大模型领域完成了一场“悄无声息的伏击”。

当日晨间,雷军通过个人社交媒体对外发布了Mimo-v2-Pro模型降临的消息。此前在OpenRouter悄然出现的两款匿名模型亮明身份,其中代号“Hunter Alpha”的模型调用量一度登顶日榜,累计突破万亿次。OpenClaw创始人Peter Steinberger曾在X平台上公开溯源询问,如今得到了雷军的正式回应。


两款模型迅速登上Artificial Analysis排行榜,在智能水平与代理能力两个维度上均进入国产模型前列。在AI开发者社区,小米以一种出人意料的方式完成了“后来者居上”的亮相。


然而,也有开发者实测指出,MiMo-V2-Flash存在“输出无限循环”的偶发问题。更关键的质疑来自基准测试本身:OpenAI Frontier Evals团队曾明确指出,小米引以为傲的SWE-bench Verified“实际上已经饱和且高度被污染”,建议行业转向更难的SWE-bench Pro。这意味着,部分亮眼数据需要在更严格的测试框架下重新验证。

罗福莉也在发布声明中直言,“会开源——当模型足够稳定值得开源的时候”。言下之意,眼前的MiMo-V2-Pro尚未达到她心中“值得开源”的标准。雷军的表态同样坦诚:“我们模型刚刚完成,未来一段时间,还会快速迭代增强。”这既是对外界的承诺,也是对现状的坦率承认——MiMo-V2-Pro确实还有不少短板需要弥补。

但瑕不掩瑜的是,MiMo-V2-Pro真正经得起审视的,是ARL-Tangram这项系统级创新。它才是罗福莉这场伏击的真正杀招,也是雷军腰杆挺直的底气所在。

01
MiMo-V2-Pro的最大亮点

为了让大语言模型具备在真实世界中执行任务的能力,罗福莉带领的研究团队做出了一个极其准确的判断:

针对智能体的强化学习是不可或缺的核心技术。

与大语言模型不同,要想训练这些更聪明的智能体,就必须让它疯狂调用外部资源,比如用CPU跑代码、用GPU跑奖励模型打分,甚至是消耗海量的外部搜索引擎API配合。

毫无疑问,结果必然伴随指数级增长的成本。

但研究团队却在这个过程中发现了一个问题:

现有的AI系统面对这些复杂的需求时,往往采用简单粗暴的“过度资源配置”,算力浪费甚至高达70%以上。

为了打破这个瓶颈,研究团队提出了一项系统级创新,名为ARL-Tangram。

在这个系统中,“动作级编排”这个概念令人眼前一亮,它能将外部资源分配的粒度细化到极致,不仅能让动作完成时间(ACT)提速4.3倍,还能节省71.2%的外部算力资源。

更重要的是,它不是只停留于实验室的想法,而是已经在小米MiMo两款新模型的训练中实际落地的策略,商业化价值初步显现。

02

走上牌桌的“智能体强化学习”

在细聊ARL-Tangram这项技术之前,首先得了解“智能体强化学习”这个概念。

一般来说,强化学习此前针对的都是大语言模型(LLM)的训练过程,传统LLM训练主要在GPU集群内闭环完成。

但是,现在人们已经不需要一个网页中的聊天助手,而是需要一个能操控设备的“数字牛马”。

智能体应运而生,它的底层是大语言模型,自然也需要类似的训练过程。

在采样展开(Rollout)阶段,模型需要不断地与Shell命令、Python解释器、搜索引擎API等外部工具和真实环境交互。


为了完成一项复杂的任务,与外部环境进行的“多轮交互、反复试错”这一系列环节被定义为轨迹。整条轨迹结束后,还需要调用奖励模型来进行打分。

因此,智能体强化学习的训练过程,高度依赖于大语言模型训练集群之外的异构外部资源。

而现有的开源强化学习框架在处理这些外部资源的分配问题时,往往采用的是“宁滥勿缺”的过度配置策略,这在两个层面上同时造成了算力的“黑洞”:

一是轨迹内的过度配置。

为了保证智能体在“反复试错”的过程中能够保证环境隔离,现有的系统大多会在一条执行轨迹的整个生命周期内,为它锁定一块专属的硬件资源。

论文中的实测数据更是超乎所有人的设想:AI编程任务中,智能体真正在运行代码的时间平均只有47%

而剩下53%的时间,底层的大模型正在思考或生成下一步的代码,但此时被强制占用的CPU资源完全处于闲置状态。

二是任务内的过度配置。

到了奖励模型打分的阶段,情况变得更加严重。

不同的强化学习任务一般需要调用不同架构的参数的专属奖励模型,为了保证打分的低延迟,开发者往往会为每一个奖励模型挂载多张昂贵的GPU。

但在强化学习训练的全过程中,这些奖励模型大多时间都处于“零请求”状态。

实测数据显示,在某个业务线并行的12个奖励模型所在的GPU集群,流式多处理器的平均活跃度连3%都不到。

英伟达的“卡脖子”越来越紧,宝贵的算力被霸占却空无产出,烧钱的同时,延迟和并发吞吐量也被限制,从商业角度看,这完全是不可接受的事实。

02

ARL-Tangram与动作级调度

为了解决这种无意义的资源浪费问题,小米的研究团队试图通过将任务流程进一步细分来优化资源分配,也就是所谓的“动作级调度”。

类似于化学中分子和原子的概念,一个“动作”指的就是底层大模型与外部资源进行的一次不可分割的交互。

它可以是执行一行Python代码,也可以是向Google发起一次网页查询API。

在这些动作的发生期间,大模型本身无需生成任何文本,只是纯粹在等待外部环境给出执行结果。

ARL-Tangram的核心逻辑很简单:既然大模型只有在这个瞬间才需要外部资源,那就只在这个瞬间给大模型分配资源。

不得不说,小米的研究团队很会给技术起名,Tangram就是七巧板的意思,而这套系统恰好能像七巧板一样灵活地拼装和调度资源。

按照这个理念,ARL-Tangram的核心操作一共有两项:

一是拆解(Breakdown):打破长生命周期环境对物理资源的持续占用。

只要一个动作执行完毕,系统马上把CPU和GPU资源抽走并释放,同时保留环境的上下文状态,等下一次动作来临时再恢复。

二是池化(Pool):将所有释放出来的闲置资源放进一个全局统一的资源池中。

智能体的实际应用过程中往往有海量的动作并发到来,系统会根据排队情况,弹性地按需分配资源给最需要的动作。

03

ARL-Tangram的核心架构

理念简单而美好。但要在复杂的GPU集群中跑通这套逻辑,就会有很多工程挑战摆在眼前:

智能体要求动作执行时间极短、资源类型复杂多样、环境状态需要瞬间保存和恢复。

为此,研究团队为ARL-Tangram设计了三个核心组件:

①统一的动作建模(Unified Action Formulation

面对CPU的内核、GPU的显存、搜索引擎网站的API调用次数这些截然不同的物理资源,要想在同一个队列内进行统筹调度,就必须有一个统一的度量方法。

ARL-Tangram的方法是将每一个动作的资源成本都抽象为一个多维向量

更重要的是,它还引入了弹性建模技术。

系统会自动识别哪些动作具备弹性:例如,4个CPU核心运行测试用例需要10秒,而16个CPU核心只需要3秒,这就为后续的动态智能调度提供了明确的数学依据。

②弹性资源调度算法(Elastic Resource Scheduling

智能体运行的过程中,调度时间只有几毫秒,面对海量并行而来的动作,算法必须在此期间最小化所有排队动作的总体完成时间(ACT)。

系统采用的是一种基于“贪心驱逐(Greedy Eviction)”的轻量级启发式算法。

简单来说,面对一大堆正在排队的动作,调度器首先实现“保底”,给每个候选动作分配仅能满足其运行的最小资源。

然后,算法会贪婪地尝试从队列末尾的动作手中“抢走资源”,并把这些资源加码分配给排在队列前面的具备弹性的动作。

如果经过计算,这种“集中力量办大事”的方法能够让总体等待和执行时间变得更短,那就毫不犹豫地立刻执行。

③异构资源管理器

调度机制已经清晰,接下来就该处理底层硬件资源的落地问题了。

ARL-Tangram针对CPU和GPU集群,研发了一套专用的底层管理机制:


对于CPU管理器,采用“执行时分配(Allocate-on-Execution, AOE)”:

动作执行完毕后,立刻回收CPU核心,但保留内存以维持环境状态,CPU复用率直接拉满。

对于GPU管理器,采用“执行时驱逐(Evict-on-Execution, EOE)”:

由于奖励模型启动极慢,而GPU显存寸土寸金,不可能把所有奖励模型都常驻在GPU中。

因此,将所有奖励模型的服务状态都备份在廉价的CPU内存中。

当一个动作需要特定的奖励模型时,如果GPU显存中有,那就直接运行;如果没有,系统将瞬间把不活跃的奖励模型从GPU显存中“驱逐”出去,并把需要的模型从CPU内存中加载出来。

配合上自主研发的显存分块策略和LRU驱逐算法,GPU碎片化和服务抖动问题也得以解决。

04

实战测试:降本增效能力一目了然

理论已经完备,接下来就该实际应用看看效果了。

研究团队在拥有数百张英伟达Hopper架构GPU和数千个CPU核心的集群中,针对AI编程、深度搜索和多任务奖励对齐等典型的真实业务场景,对ARL-Tangram进行了严格评估。

最直观的效果就是速度的飙升,解决了“排队拥堵”的情况。

在同样的硬件资源下,ARL-Tangram处理突发流量得心应手。AI编程和深度搜索任务中,单步训练时间分别缩短1.4倍和1.5倍。

由于彻底消除了轨迹内的过度配置,环境交互和奖励计算的耗时分别下降了9.0倍和2.8倍,总体的动作完成速度最高能达到4.3倍。

速度提升的背后,则是极致的性价比和算力利用率。

在固定并发量(Batch Size 1024)的极限测试中,对比业界流行的基线方案,ARL-Tangram展现出了强大的资源压缩能力。

例如,为了服务10个不同的奖励模型,基线方案必须长期占用大量GPU,而ARL-Tangram只需使用基线方案29%的GPU资源就可以达到相同的处理延迟。


对于企业来说,这就意味着节约了71.2%的昂贵外部算力。

若是进一步测试极限,将Batch Size提升至1526,传统的K8s调度器由于资源耗尽直接崩溃,而ARL-Tangram仍然稳如泰山。


在CPU可扩展性测试中,平均任务完成时间相比基线降低了27.7倍;在GPU集群上,面对高并发场景,ARL-Tangram也能流畅地提供服务。

05

小米大模型的“伏击”之路

回顾两年前国内大模型的蓬勃发展,小米在AI领域的起步似乎并不算顺利。

在腾讯、阿里、百度等互联网大厂和智谱、Minimax、月之暗面等AI初创企业接连推出世界知名的大模型时,小米显得尤为沉默。

哪怕是现在,提起小米,人们最先想起来的也是手机和汽车,以及雷军的那场“Are you OK?”发布会。

然而,ARL-Tangram和两款最新模型的发布,却让小米一跃成为国产AI的第一梯队,并在部分维度上超越了起步更早的竞品。

对于如何实现这种“后发先至”的跨越,ARL-Tangram的论文其实已经给出了答案。

在AI竞争的下半场,企业竞争的核心已经不再是谁能堆砌更多的参数,或是谁能购买到更多的显卡。

在所有人都已经意识到智能体会成为现阶段最可能通往AGI的必经之路时,小米率先注意到了针对智能体的强化学习才是大厂之间的决胜局。

训练一个聪明的智能体,必将消耗极其庞大且碎片化的异构计算资源。

如果不解决底层的调度效率问题,算法工程师脑中天才般的想法只会被缓慢的实验迭代周期和燃烧着的账单拖垮。

ARL-Tangram的意义就在于提供了一套高度工程化、可无缝落地且具有巨大商业价值的解决方案。

全面部署到小米MiMo系列大模型训练的流水线后,智能体代理能力的提升有目共睹。

技术突破的背后,永远有人的故事和企业战略的交锋。

在这篇重磅论文的作者列表中,可以看到一个熟悉的名字:罗福莉。

这位曾经在DeepSeek任职的核心技术人员,拒绝被外界称为天才少女,始终把自己定位为一个用代码和工程解决实际问题的技术人。

ARL-Tangram一样,弹性按需分配的思路在计算机领域并不罕见,但小米却第一个脚踏实地将技术落实到了产品之中。

如今看来,雷军将罗福莉从DeepSeek挖至麾下,无疑是一次极具战略眼光的人才投资。

若是放在过去的两年之中,外界的怀疑声音早已接踵而来,但ARL-Tangram技术的诞生,以及小米两款新模型的惊艳表现已经给出的确切的回答:

雷军的这笔AI投资,不仅投对了,而且把好钢用在了刀刃上。

160亿的资金不一定能在算力堆砌上产生结果,但却能砸开底层基础设施的坚固壁垒。

系统基建决定了算法的天花板,在拥有了运行速度快4倍的底层训练框架时,竞争壁垒就已经在无形之中建立起来。

大模型商业竞争的下半场,小米正努力挤上牌桌。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有高人预测:今明两年,国内贬值最快的不是现金,而是这4样东西

有高人预测:今明两年,国内贬值最快的不是现金,而是这4样东西

猫叔东山再起
2026-04-05 08:10:08
北冰洋只添加一滴却当卖点宣传,网友:国内企业是这样的

北冰洋只添加一滴却当卖点宣传,网友:国内企业是这样的

映射生活的身影
2026-04-05 10:52:25
美媒:获救美国飞行员已被送往科威特

美媒:获救美国飞行员已被送往科威特

新华社
2026-04-05 15:03:02
伊朗称击落美C-130运输机 美国:我们自己炸的

伊朗称击落美C-130运输机 美国:我们自己炸的

看看新闻Knews
2026-04-05 14:35:15
快讯!伊朗总统突然发文了!

快讯!伊朗总统突然发文了!

达文西看世界
2026-04-05 15:24:07
上海年近八旬老夫妻被撞!全身多处骨折,还是全责!又是这种车,83岁邻居也因此受伤

上海年近八旬老夫妻被撞!全身多处骨折,还是全责!又是这种车,83岁邻居也因此受伤

新民晚报
2026-04-05 16:42:09
周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

周杰伦塌房!什么原创王子,他的这么多歌竟然都是抄来的

可达鸭面面观
2026-04-05 16:59:56
中国夫妻“干婚”现象悄然蔓延:无性无爱,无法离婚

中国夫妻“干婚”现象悄然蔓延:无性无爱,无法离婚

李月亮
2026-04-04 20:55:03
王石被限制出境!多名高管被带走!万科的清算开始了!

王石被限制出境!多名高管被带走!万科的清算开始了!

伊历史
2026-04-03 14:34:44
跌70%了还在跌,今年跌得最惨的8只股票,谁有它们跌得多?

跌70%了还在跌,今年跌得最惨的8只股票,谁有它们跌得多?

夜深爱杂谈
2026-04-05 17:04:47
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
网传特朗普被紧急送往医院,警车开道视频疯传!白宫辟谣:特朗普并未住院

网传特朗普被紧急送往医院,警车开道视频疯传!白宫辟谣:特朗普并未住院

西游日记
2026-04-05 12:45:05
美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

美军飞行员获救,细节公开:48小时建简易机场,搭进去5架飞机

潮鹿逐梦
2026-04-05 16:55:57
朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

花寒弦絮
2026-04-04 00:48:59
暴雨蓝色预警:江西南部、福建西部等局地有大暴雨

暴雨蓝色预警:江西南部、福建西部等局地有大暴雨

界面新闻
2026-04-05 18:16:14
特斯拉车主:全程 500 多公里,Model Y 跑完还剩 20% 电量!

特斯拉车主:全程 500 多公里,Model Y 跑完还剩 20% 电量!

新浪财经
2026-04-05 14:34:08
贾平凹之女西北大学副教授贾浅浅多篇论文被指大面积抄袭,部分段落照搬其父主编杂志所刊旧文,且未注明引用,存多处错字

贾平凹之女西北大学副教授贾浅浅多篇论文被指大面积抄袭,部分段落照搬其父主编杂志所刊旧文,且未注明引用,存多处错字

大象新闻
2026-04-05 00:48:06
黄贯中晒了他和夫人朱茵的近照,没有美颜滤镜,真实好看

黄贯中晒了他和夫人朱茵的近照,没有美颜滤镜,真实好看

东方不败然多多
2026-04-05 12:33:39
胖东来再回应“鸡蛋被检出角黄素”

胖东来再回应“鸡蛋被检出角黄素”

界面新闻
2026-04-05 17:34:08
周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

观察者海风
2026-04-04 22:06:54
2026-04-05 20:07:00
硅基星芒AI
硅基星芒AI
锦缎旗下人工智能研究与媒体服务平台
38文章数 3关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

游戏
艺术
数码
教育
公开课

LCK第二赛段:上野超模,NS零封DNS

艺术要闻

全球最长F1赛道要来了,70米高“刀锋弯”初具规模!

数码要闻

英伟达“神经纹理压缩”可让显存占用直降85%,且游戏画质无损

教育要闻

历史课被“弃选”,部分历史老师“无人可教”,专家分析原因

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版