小米深夜突袭 AI 圈：它不是在补短板，是在保身家性命|安卓|ai圈|mimo|小米集团|知名企业

小米深夜突袭 AI 圈：它不是在补短板，是在保身家性命

2026-03-19 11:49:21　来源: 孔二老师

北京举报

分享至

昨天深夜，小米没有发布会，没有预热，没有倒计时，直接上线了三款大模型：MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。

Pro主攻语言理解和Agent能力，Omni主打多模态感知——音频、图像、视频全收，TTS专攻语音合成。三款一起，覆盖了AI Agent需要的"认知、感知、表达"三层完整能力。

数据也不含糊。Omni的图像理解超过Claude Opus 4.6，音频理解超过Gemini 3 Pro；Pro的代码能力拿下开源模型第一，Agent测评Top2；TTS训练数据规模达上亿小时，支持普通话、粤语、四川话多种方言。更早发布的MiMo-V2-Flash，推理价格是Claude的2.5%，速度是DeepSeek的3倍。

科技圈当晚炸了一锅。讨论焦点集中在一件事上：小米，一家手机和汽车公司，为什么要在AI军备竞赛最激烈的时候，突然跳进大模型这个坑？

这个问题问对了，但答案大多数人没想清楚。

大多数报道的解读是：小米在追AI浪潮，补技术短板。

这个解读没有错，但停在了最浅的那一层。

小米在打防御战

先把小米的核心资产摆出来。

不是手机，不是汽车——是那张网。7.42亿月活用户，10.4亿IoT连接设备，15000家硬件合作伙伴。"人车家全生态"这个战略，用大白话说就是：小米在用户生活里布了密密麻麻的硬件入口，手机、电视、空调、音箱、汽车，每一个都是一个触点。

这张网，是小米过去二十年建起来最值钱的东西。

但它现在面临一个根本性的威胁，而且这个威胁不来自任何竞争对手，它来自AI本身的发展逻辑。

问题很简单：如果用户在小米设备上获得的那个最关键的AI体验，是由OpenAI或者DeepSeek提供的，那小米的硬件生态实际上退化成了什么？

退化成了一个渠道。它有入口，但不控制体验；它有用户，但黏性属于别人。

Thompson的聚合理论说得很清楚：在互联网时代，谁控制了用户体验，谁就控制了价值链。硬件入口曾经是最重要的护城河，但当AI成为用户和设备之间最核心的那层交互，硬件就开始变成载体，而不是主角。

小米比任何人都更清楚这件事的后果，因为它手上握着10.4亿台设备——这是它最大的优势，同时也是它失去控制权之后损失最惨的地方。

自研大模型，本质上是在做一件事：不让自己花了二十年建起来的硬件生态，变成别人AI能力的免费分发渠道。

为什么是这三款？

这是整件事最值得细看的地方，也是大多数报道没有说清楚的地方。

Pro管语言理解和Agent能力，Omni管多模态感知——音频、图像、视频，TTS管语音合成。

单独看每一款，都是技术产品。放在一起看，是一个完整的AI Agent能力栈：

听得见，看得懂，想得清，说得出。

把这四个能力放进小米的硬件场景里：你在家里说一句话，家居系统听见了；你把手机摄像头对着冰箱，AI看懂了里面有什么；它推理出你今天的晚餐建议，然后用自然的语音告诉你，同时自动预热了烤箱。

这不是一个聊天AI。这是一个能在真实物理空间里感知、推理、执行、反馈的系统。

"人车家全生态"这个战略，以前靠的是硬件互联——设备之间能互相通话。现在小米要把它升级成另一件事：场景智能——AI理解你在哪里、在做什么、需要什么，然后跨设备协同响应。

这个升级靠调用别人的API做不到，因为那个AI不理解小米生态的上下文，不知道你家里有哪些设备，不知道你的使用习惯，不知道这套硬件系统的边界在哪里。只有自研，才能把模型能力和硬件场景真正焊在一起。

三款模型的组合，不是技术炫耀，是能力补全。小米在给自己的10.4亿台设备装感知和大脑。

“开源”比模型本身更值得看

MiMo-V2-Flash全面开源，推理代码也开源，API限时免费。

很多人把这理解成技术自信，或者大方。

然而，开源是一种战略，不是慷慨。它的逻辑链是这样的：

开源模型→开发者涌入，基于MiMo构建应用→这些应用优先在小米生态里跑→小米生态的软件密度上升→对硬件合作伙伴的吸引力增强→更多设备接入→生态壁垒加厚。

飞轮的起点是开发者。小米现在有120万开发者，这是它手上被严重低估的资产。如果这120万人开始基于MiMo构建Agent应用，小米的硬件生态就会在软件侧形成真正的壁垒——不靠封闭，靠密度。

这个逻辑，谷歌用安卓做过一次。开源安卓，不是为了让别人免费用，是为了让全球开发者都在安卓生态里工作，从而让安卓成为谁也绕不开的基础设施。

小米在用同样的逻辑，在AI时代试着重演一次。当然，安卓花了十年才建起那个生态，小米能不能走到那一步，还是另一个问题。

雇什么人，就是在押注什么方向

罗福莉这个人值得单独说一下。

她从DeepSeek出来，低调加入小米，首秀拿出了一个Agent能力和代码能力比肩顶级闭源模型的开源大模型。卢伟冰透露，过去四个季度AI投入环比增速超50%，单岗位薪酬上限开到了千万级别。

雷军花这个价钱挖的不是泛化的AI研究员。罗福莉最擅长的是推理模型和Agent——这两个方向和小米的硬件场景是精确匹配的。家居、汽车需要的不是一个会聊天的AI，需要的是一个能执行任务、调用工具、在多步骤指令里不出错的Agent。

人挖对了，方向才是对的。

罗福莉在演讲里说了一句话值得记住："算力和数据也并非最后的护城河。"这不是谦虚，这是她真实的判断——如果护城河只靠算力堆，那资源最多的公司永远赢，小米没有机会。她和小米押注的是另一条路：在推理效率和Agent能力上做出差异，用更小的参数、更低的成本，跑出更实用的结果。

MiMo-V2-Flash的参数是DeepSeek V3家族的一半，但在代码和Agent榜单上打到了第一梯队。这条技术路线如果走通了，对小米意味着：它不需要和字节、阿里拼算力军备，它可以在效率上找到自己的位置。

但有一个问题还没有答案。

小米的逻辑说得通，方向也是对的。但做到了能力闭环是一回事，做到了体验闭环是另一回事。

模型够强，不等于用户在小米设备上感受到的AI体验就够好。从自研模型到真正打通人车家全场景的AI交互，中间还有大量的工程整合工作——怎么把Omni的感知能力接进家居系统？怎么让汽车里的AI知道你刚离开家时家里的状态？怎么在不同设备之间保持上下文连续？

这些不是大模型能力问题，是系统整合问题。而系统整合，历来是最难、最慢、最容易出现裂缝的地方。

小米说自己要做这件事，三款模型是第一步。

但第一步和真正走到终点，中间的距离，还不知道有多远。

本期内容

作者：鱼程西

校对：王成闻

往期洞察 >

启境GT7被全网群嘲，但华为根本不在乎

英伟达最重要的GTC大会落幕：什么都做，但有一件事绝对不碰

林俊旸离开12天后，阿里将千问塞进了ATH

孔二

账号介绍

Self - introduction

咨询公司创始人，资深科技参与者、观察者。

「专注科技产品，也专注创造产品的科技本身；专注科技产业，也专注推动产业的科技人物」。

前奥美创意总监，熟谙重大事件策划，虎嗅、钛媒体、网易等多家内容平台热门作者，推出营销专业理论“营销七象”。

爆文《贾跃亭怒沉百宝箱》《刘强东的开学第一课》等多篇科技点评获得500万+阅读，被全网推荐转载。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.