网易首页 > 网易号 > 正文 申请入驻

雷军的AI福将?罗福莉交出万亿参数模型大作业,林俊旸点赞

0
分享至



出品|搜狐科技

作者|常博硕

编辑| 杨 锦

真相大白了,Hunter Alpha原来是小米罗福莉的“作业”。

事情还要回溯到3月11日,当天全球最大API聚合平台OpenRouter上突然出现了一个代号为Hunter Alpha的模型。短短七天内,累计调用量突破1万亿Token,连续多日登顶榜单。


这个模型没有标注开发者身份,于3月11日以“隐身模型”形式发布,且向开发者提供免费访问。测试显示,该系统具备1万亿参数规模和高达100万token的上下文窗口。

由于模型自称是主要以中文训练的中国AI模型,知识截止时间为2025年5月,不管是性能参数还是知识时间节点都和DeepSeek之前的模型风格很相似,于是市场便纷纷猜测这可能是DeepSeek在正式发布前对其下一代系统进行的秘密测试。

然而,昨天小米 MiMo 团队正式认领了该模型,Hunter Alpha是小米旗舰模型MiMo-V2-Pro的内部测试版本。目前,小米AI团队领军人物是前DeepSeek 核心研究员罗福莉,或许这也是为什么Hunter Alpha会让大家“幻视”DeepSeek吧。


小米也想上桌

在小米新品发布会上,雷军正式发布小米首款自研旗舰大模型Xiaomi MiMo-V2-Pro,此外,小米还推出了相关系列模型MiMo-V2-Omni 和 TTS。

过去一年,小米在AI领域的存在感并不强。既没有阿里那样做基模也不像DeepSeek 在社区靠开源爆火,更像是硬件和生态玩家。但这次Hunter Alpha的表现直接说明,小米已经拥有一支能做万亿级模型的团队。

此次小米共发布三款模型,MiMo-V2-Pro(原Hunter Alpha)是一款面向Agent时代的旗舰基座模型。总参数量1万亿,激活参数控制在42B,并支持1M超长上下文。

MiMo-V2-Omni(原Healer Alpha):全模态理解模型。专为需要快速反应和低延迟的真实场景打造,能够同时处理文本、图像、音频乃至长达一小时的视频输入。

MiMo-V2-TTS则是一款拟人语音大模型。

具体来看,MiMo-V2-Pro是此次受关注最高的一款模型,也是小米正式进军智能体时代的标志。与传统以对话体验为核心优化目标的语言模型不同,它的设计起点并非“生成回答”,而是作为 Agent 系统的中枢,能够理解目标、规划步骤、调用外部工具,并在多阶段执行过程中持续修正路径,最终完成任务闭环。

从模型架构来看,MiMo-V2-Pro 采用超大规模稀疏化设计,总参数规模达到万亿级(1T),其中单次推理的激活参数约为 42B。

这一结构本质上是对 MoE(Mixture-of-Experts)体系的进一步工程化实现,大规模专家网络承载知识容量,同时在推理阶段仅激活部分子网络,这就能够在不增加计算成本的情况下扩展模型表达能力。

在注意力机制上,MiMo-V2-Pro 引入改进后的路由注意力(Hybrid Attention)结构,将局部窗口注意力与全局注意力进行分层组合。通过窗口化机制限制计算复杂度的同时还能通过全局路径保留长距离依赖。

这就使得模型能够在长上下文场景下维持稳定推理,不会出现典型的注意力退化问题。

MiMo-V2-Pro的上下文窗口进一步扩展至100万Token。在多步骤任务执行中,模型可以在单次上下文内保留完整的中间状态、工具调用结果以及历史决策路径,从而避免频繁的上下文重建或外部检索。这一特性对于Agent系统尤为关键,使其能够在长链路任务中保持一致性与连贯性。

在此前以Hunter Alpha代号进行的匿名测试阶段,这些能力已经有所体现。根据OpenRouter官网的调用数据,模型在上线后使用场景更多是代码生成、开发工具与自动化任务。

从跑分上来看,MiMo-V2-Pro表现确实很不错。

在通用Agent能力评估(ClawEval)中,MiMo-V2-Pro得分61.5,逼近Claude Opus 4.6;在PinchBench测试中排名全球前三。在编码能力方面,其表现甚至超过Claude Sonnet 4.6,接近更高端的Opus级别。

定价上,MiMo-V2-Pro在256K上下文长度内,输入token单价为每百万1美元,输出为每百万3美元;即使扩展到100万上下文,输入也只需每百万2美元,输出每百万6美元,价格约Claude Opus 4.6的五分之一。


林俊旸点赞罗福莉

罗福莉,是这次 MiMo 模型体系中一个绕不开的关键人物。她本科毕业于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所。曾任职于阿里巴巴达摩院、幻方量化及DeepSeek(深度求索)。

在阿里期间,她主导开发了多语言预训练模型VECO;在DeepSeek期间,她是MoE大模型DeepSeek-V2的关键开发者之一。2025年11月,罗福莉加入小米,负责领导MiMo大模型团队。

这次的MiMo-V2-Pro,是罗福莉加入小米后交的第一份大作业。

在模型公布后,她在自己的社交主页写道:MiMo-V2-Pro、Omni 和 TTS 正式发布。这是我们首个真正为智能体时代打造的全栈模型系列。我称之为一次悄无声息的突袭——并非因为我们事先计划好的,而是因为从聊天模式到智能体模式的转变发生得太快,连我们自己都难以置信。在这期间,我们经历了一个既激动人心又痛苦不堪,同时又令人着迷的过程。

据罗福莉表示,1T 基础模型早在几个月前就开始训练了。最初的目标是提高长上下文推理的效率。混合注意力机制带来了真正的创新,却又不至于过度扩张。事实证明,它正是智能体时代的理想基础。1M 的上下文窗口。MTP 推理技术实现了超低延迟和成本。这些架构决策并非一时风尚,而是我们在需要之前就构建的结构性优势。真正改变一切的是第一次体验到复杂的智能体框架。

她还透露,自己给团队下了硬性指标:MiMo团队中,每天与AI对话少于100次的人都可以辞职。

在罗福莉看来,一旦团队的想象力被智能系统的功能所激发,这种想象力就直接转化为研发速度。

她还透露,当模型足够稳定值得开源的时候,她会选择开源。随后,前阿里巴巴通义千问(Qwen)系列大模型核心技术负责人林俊旸点赞了该帖,并评论道:“太棒了。”


模型发布后,雷军第一时间表示,“我们刚发布万亿参数大模型 Mimo-V2-Pro。在全球大模型综合智能排行榜 Artificial Analysis 上,位列全球第八。按大模型品牌来排名,排在全球第五,超过了xAI Grok。我们模型刚刚完成,未来一段时间,还会快速迭代增强。”

同时他也承认,小米一直以来在AI领域相对比较低调,实际进展可能比大家看到的要快很多。

对于进军AI这件事,雷军并不吝啬,他表示:“我们今年的研发和资本投入就将超过160亿元。我相信,只要我们坚持持续投入,小米在AI时代一定会交出一份靓丽的答卷。”



运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

安珈使者啊
2026-03-29 14:37:11
孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

潮鹿逐梦
2026-03-28 10:59:56
2500名美海军陆战队抵近,德黑兰为何威胁炸掉自己的“钱袋子”?

2500名美海军陆战队抵近,德黑兰为何威胁炸掉自己的“钱袋子”?

枫叶君评
2026-03-30 10:54:48
周杰伦: 鬼火少年老了

周杰伦: 鬼火少年老了

爆角追踪
2026-03-29 21:26:58
单依纯舞台上歇斯底里的表演,不停高喊“好想谈恋爱”

单依纯舞台上歇斯底里的表演,不停高喊“好想谈恋爱”

爆角追踪
2026-03-30 07:15:45
快讯!馆长这是要起义了吗?

快讯!馆长这是要起义了吗?

达文西看世界
2026-03-30 13:55:35
特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

红星新闻
2026-03-30 13:21:16
预售价26.98万元起,问界M6新在哪里?

预售价26.98万元起,问界M6新在哪里?

优视汽车
2026-03-25 11:23:29
医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

医生:心梗最危险信号,不是嘴唇发紫,而是频繁出现这5种异常

健康科普365
2026-03-28 18:20:07
周杰伦新专辑封面被嘲 “老登味” 网友:现在是他个人的审美

周杰伦新专辑封面被嘲 “老登味” 网友:现在是他个人的审美

小萝卜丝
2026-03-30 09:33:58
贾跃亭晒喜讯:儿子圆梦斯坦福大学研究生 为他骄傲

贾跃亭晒喜讯:儿子圆梦斯坦福大学研究生 为他骄傲

快科技
2026-03-30 09:40:20
全网震动!字节跳动多人被抓!

全网震动!字节跳动多人被抓!

大佬灼见
2026-03-30 11:39:00
俄罗斯4人团队做的VPN,成了中国用户的救命稻草

俄罗斯4人团队做的VPN,成了中国用户的救命稻草

薛定谔的BUG
2026-03-28 11:13:03
快讯!伊朗议长重大宣布了!

快讯!伊朗议长重大宣布了!

达文西看世界
2026-03-30 10:34:11
从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

从杨主席访伊朗受怠慢,聊聊如今为何有伊朗人称我们“秦腔穷”?

阿胡
2026-03-30 12:52:29
接陌生电话不要先出声

接陌生电话不要先出声

大象新闻
2026-03-29 07:29:10
杨瀚森复出6+4+1帽吃生涯首T!开拓者3人20+大胜奇才 阿夫20+7

杨瀚森复出6+4+1帽吃生涯首T!开拓者3人20+大胜奇才 阿夫20+7

醉卧浮生
2026-03-30 08:30:08
单依纯的尴尬不在于翻唱,而是无歌可唱

单依纯的尴尬不在于翻唱,而是无歌可唱

牛角说
2026-03-30 12:41:23
伊朗女足球员:澳方承诺给我们房子、车子和永居权,来说服我们留下

伊朗女足球员:澳方承诺给我们房子、车子和永居权,来说服我们留下

懂球帝
2026-03-30 13:45:07
米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

米莱高调宣布:我将阿根廷的贫困率降低了27%,全靠尊重产权和市场经济

风向观察
2026-03-30 14:33:04
2026-03-30 17:07:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4750文章数 9184关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

健康
手机
亲子
公开课
军事航空

干细胞抗衰4大误区,90%的人都中招

手机要闻

三星旧机更新现隔空投送开关,却无法使用?

亲子要闻

别再给孩子吃这3种“假早餐”,越吃越没精神

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版