![]()
昨天深夜,小米没有发布会,没有预热,没有倒计时,直接上线了三款大模型:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。
Pro主攻语言理解和Agent能力,Omni主打多模态感知——音频、图像、视频全收,TTS专攻语音合成。三款一起,覆盖了AI Agent需要的"认知、感知、表达"三层完整能力。
数据也不含糊。Omni的图像理解超过Claude Opus 4.6,音频理解超过Gemini 3 Pro;Pro的代码能力拿下开源模型第一,Agent测评Top2;TTS训练数据规模达上亿小时,支持普通话、粤语、四川话多种方言。更早发布的MiMo-V2-Flash,推理价格是Claude的2.5%,速度是DeepSeek的3倍。
科技圈当晚炸了一锅。讨论焦点集中在一件事上:小米,一家手机和汽车公司,为什么要在AI军备竞赛最激烈的时候,突然跳进大模型这个坑?
这个问题问对了,但答案大多数人没想清楚。
大多数报道的解读是:小米在追AI浪潮,补技术短板。
这个解读没有错,但停在了最浅的那一层。
![]()
小米在打防御战
先把小米的核心资产摆出来。
不是手机,不是汽车——是那张网。7.42亿月活用户,10.4亿IoT连接设备,15000家硬件合作伙伴。"人车家全生态"这个战略,用大白话说就是:小米在用户生活里布了密密麻麻的硬件入口,手机、电视、空调、音箱、汽车,每一个都是一个触点。
这张网,是小米过去二十年建起来最值钱的东西。
但它现在面临一个根本性的威胁,而且这个威胁不来自任何竞争对手,它来自AI本身的发展逻辑。
问题很简单:如果用户在小米设备上获得的那个最关键的AI体验,是由OpenAI或者DeepSeek提供的,那小米的硬件生态实际上退化成了什么?
退化成了一个渠道。它有入口,但不控制体验;它有用户,但黏性属于别人。
Thompson的聚合理论说得很清楚:在互联网时代,谁控制了用户体验,谁就控制了价值链。硬件入口曾经是最重要的护城河,但当AI成为用户和设备之间最核心的那层交互,硬件就开始变成载体,而不是主角。
小米比任何人都更清楚这件事的后果,因为它手上握着10.4亿台设备——这是它最大的优势,同时也是它失去控制权之后损失最惨的地方。
自研大模型,本质上是在做一件事:不让自己花了二十年建起来的硬件生态,变成别人AI能力的免费分发渠道。
为什么是这三款?
这是整件事最值得细看的地方,也是大多数报道没有说清楚的地方。
Pro管语言理解和Agent能力,Omni管多模态感知——音频、图像、视频,TTS管语音合成。
单独看每一款,都是技术产品。放在一起看,是一个完整的AI Agent能力栈:
听得见,看得懂,想得清,说得出。
把这四个能力放进小米的硬件场景里:你在家里说一句话,家居系统听见了;你把手机摄像头对着冰箱,AI看懂了里面有什么;它推理出你今天的晚餐建议,然后用自然的语音告诉你,同时自动预热了烤箱。
这不是一个聊天AI。这是一个能在真实物理空间里感知、推理、执行、反馈的系统。
"人车家全生态"这个战略,以前靠的是硬件互联——设备之间能互相通话。现在小米要把它升级成另一件事:场景智能——AI理解你在哪里、在做什么、需要什么,然后跨设备协同响应。
这个升级靠调用别人的API做不到,因为那个AI不理解小米生态的上下文,不知道你家里有哪些设备,不知道你的使用习惯,不知道这套硬件系统的边界在哪里。只有自研,才能把模型能力和硬件场景真正焊在一起。
三款模型的组合,不是技术炫耀,是能力补全。小米在给自己的10.4亿台设备装感知和大脑。
“开源”比模型本身更值得看
MiMo-V2-Flash全面开源,推理代码也开源,API限时免费。
很多人把这理解成技术自信,或者大方。
然而,开源是一种战略,不是慷慨。它的逻辑链是这样的:
开源模型→开发者涌入,基于MiMo构建应用→这些应用优先在小米生态里跑→小米生态的软件密度上升→对硬件合作伙伴的吸引力增强→更多设备接入→生态壁垒加厚。
飞轮的起点是开发者。小米现在有120万开发者,这是它手上被严重低估的资产。如果这120万人开始基于MiMo构建Agent应用,小米的硬件生态就会在软件侧形成真正的壁垒——不靠封闭,靠密度。
这个逻辑,谷歌用安卓做过一次。开源安卓,不是为了让别人免费用,是为了让全球开发者都在安卓生态里工作,从而让安卓成为谁也绕不开的基础设施。
小米在用同样的逻辑,在AI时代试着重演一次。当然,安卓花了十年才建起那个生态,小米能不能走到那一步,还是另一个问题。
雇什么人,就是在押注什么方向
罗福莉这个人值得单独说一下。
![]()
她从DeepSeek出来,低调加入小米,首秀拿出了一个Agent能力和代码能力比肩顶级闭源模型的开源大模型。卢伟冰透露,过去四个季度AI投入环比增速超50%,单岗位薪酬上限开到了千万级别。
雷军花这个价钱挖的不是泛化的AI研究员。罗福莉最擅长的是推理模型和Agent——这两个方向和小米的硬件场景是精确匹配的。家居、汽车需要的不是一个会聊天的AI,需要的是一个能执行任务、调用工具、在多步骤指令里不出错的Agent。
人挖对了,方向才是对的。
罗福莉在演讲里说了一句话值得记住:"算力和数据也并非最后的护城河。"这不是谦虚,这是她真实的判断——如果护城河只靠算力堆,那资源最多的公司永远赢,小米没有机会。她和小米押注的是另一条路:在推理效率和Agent能力上做出差异,用更小的参数、更低的成本,跑出更实用的结果。
MiMo-V2-Flash的参数是DeepSeek V3家族的一半,但在代码和Agent榜单上打到了第一梯队。这条技术路线如果走通了,对小米意味着:它不需要和字节、阿里拼算力军备,它可以在效率上找到自己的位置。
但有一个问题还没有答案。
小米的逻辑说得通,方向也是对的。但做到了能力闭环是一回事,做到了体验闭环是另一回事。
模型够强,不等于用户在小米设备上感受到的AI体验就够好。从自研模型到真正打通人车家全场景的AI交互,中间还有大量的工程整合工作——怎么把Omni的感知能力接进家居系统?怎么让汽车里的AI知道你刚离开家时家里的状态?怎么在不同设备之间保持上下文连续?
这些不是大模型能力问题,是系统整合问题。而系统整合,历来是最难、最慢、最容易出现裂缝的地方。
小米说自己要做这件事,三款模型是第一步。
但第一步和真正走到终点,中间的距离,还不知道有多远。
本期内容
作者:鱼程西
校对:王成闻
往期洞察 >
启境GT7被全网群嘲,但华为根本不在乎
英伟达最重要的GTC大会落幕:什么都做,但有一件事绝对不碰
林俊旸离开12天后,阿里将千问塞进了ATH
孔二
账号介绍
Self - introduction
咨询公司创始人,资深科技参与者、观察者。
「专注科技产品,也专注创造产品的科技本身;专注科技产业,也专注推动产业的科技人物」。
前奥美创意总监,熟谙重大事件策划,虎嗅、钛媒体、网易等多家内容平台热门作者,推出营销专业理论“营销七象”。
爆文《贾跃亭怒沉百宝箱》《刘强东的开学第一课》等多篇科技点评获得500万+阅读,被全网推荐转载。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.