![]()
2026年4月底,小米悄然甩出AI大模型领域的重磅炸弹——正式开源MiMo-V2.5与MiMo-V2.5-Pro两款模型。前者主打原生多模态能力,适配图文音等多场景交互;后者专攻长周期一致性与复杂软件工程,瞄准AI智能体(Agent)高强度任务需求。更关键的是,两款模型均采用MIT宽松许可证,企业可免费商用、自由修改,还能部署在本地或私有云,无额外授权门槛。
这波操作直接搅动国产大模型格局:Pro版在GDPVal-AA(Elo)基准拿下1581分,力压KimiK2.6、GLM5.1;能4.3小时从零写完整编译器、11.5小时开发全功能视频编辑器。但光鲜背后,争议也随之而来——定价不占优势、长链推理短板、营销感过重等声音不断。本文就从技术亮点、硬核实测、定价逻辑、争议与行业影响五大维度,拆解小米这款“超速迭代”的模型到底成色几何。
![]()
一、双模型定位:多模态基座VS长任务旗舰
小米此次开源的两款模型,定位清晰、分工明确,覆盖从通用交互到专业工程的全场景需求,背后是“为Agent时代造模型”的核心思路。
MiMo-V2.5:轻量化多模态全能手
作为基础模型,MiMo-V2.5核心是原生多模态能力,总参数310B、激活参数15B,采用稀疏专家混合(MoE)架构。训练分五大阶段:48万亿token文本预训练打牢语言根基,再对齐自研音视频编码器,接着做多模态预训练、扩展上下文至1Mtoken,最后用强化学习(RL)和多模态偏好优化(MOPD)提升感知能力。
简单说,它擅长“感知与沟通”——能看懂图片、听懂语音、理解长文本,适合聊天交互、内容创作、简单工具调用等通用场景,推理速度快、延迟低,对日常用户友好。
MiMo-V2.5-Pro:1.02T参数的长任务“工程大师”
Pro版是小米当前最强模型,总参数1.02T、激活参数42B,同样为MoE架构,主打“长周期一致性”与复杂软件工程。它的训练重点不是感官对齐,而是注入“脚手架意识”(harnessawareness)——能主动管理记忆、塑造上下文,在数千次连续工具调用中不失忆、不跑偏。
![]()
技术上有两大核心设计:一是6:1混合注意力,局部滑动窗口注意力+全局注意力,窗口128token,KV-cache存储减少7倍,能聚焦15%关键上下文;二是3层多Token预测(MTP),推理速度提升3倍,加速强化学习训练。上下文最高支持100万token,专门适配OpenClaw、NanoClaw等Agent框架的高强度任务。
![]()
二、硬核实测:4小时干完美式本科毕设,AI工程能力拉满
小米最有说服力的,不是冰冷的参数,而是三个颠覆行业认知的实测案例——把AI从“聊天机器”变成“能独立干活的工程师”。
案例1:4.3小时搞定编译器,满分通关
北大计算机系《编译原理》课程的SysY编译器项目,本科生通常要数周才能完成,包括词法分析(lexer)、语法分析(parser)、RISC-V汇编后端等全流程。MiMo-V2.5-Pro仅用4.3小时,调用672次工具,从零实现完整编译器,在隐藏测试集拿下233/233满分,全程无人类干预、无崩溃、无逻辑错误。
案例2:11.5小时开发全功能视频编辑器
更夸张的是,Pro版自主工作11.5小时,调用1868次工具,生成8192行代码的桌面视频编辑器。具备多轨时间线、剪辑、特效、导出流水线等完整功能,相当于独立完成一个中型桌面应用开发,全程无需人类指导或纠错。
案例3:研究生级EDA优化,指标提升22倍
在台积电180nm工艺的FVF-LDO稳压器优化任务中(研究生级工程题),Pro版通过反复迭代ngspice仿真循环,将线性调整率等核心指标提升22倍,远超初始方案,展现出在专业工程领域的迭代优化能力。
这些案例的核心,正是小米强调的“脚手架意识”——普通模型调用几十次工具就会失忆、逻辑断裂,而Pro版能在数千次工具调用中维持上下文一致性,像人类工程师一样分步拆解、逐步调试、持续优化。
三、定价与Token效率:海外价高,性价比看实际消耗
开源之外,商业化定价是开发者最关心的问题。小米采用“分层定价+超长上下文溢价”策略,覆盖国内外市场,核心特点是“缓存未命中贵、超长上下文翻倍”。
海外定价(美元/百万token)
普通上下文(≤256K):输入$1.00,输出$3.00
超长上下文(256K-1M):输入$2.00,输出$6.00
![]()
国内定价:横向对比不便宜
横向看国内主流开源模型,MiMo价格不占优势:DeepSeek、智谱GLM、Kimi等模型,同级别API价格普遍低于MiMo,部分还提供免费额度或低价套餐。
性价比关键:Token效率比单价更重要
但小米的底气在于Token效率——Agent任务(如编程、工具调用)的成本,核心看“完成同等任务消耗的token数”,而非单价。ArtificialAnalysis测评显示:
MiMo-V2.5-Pro比KimiK2.6节省42%token
MiMo-V2.5比MetaMuseSpark节省50%token
简单说:单价贵,但干同样的活消耗更少token,长期使用总成本未必高。尤其Agent模式下,token消耗是普通聊天的几十倍,效率直接决定成本。
![]()
行业背景是AI推理补贴时代终结:微软GitHubCopilot转向按token计费,不再无限订阅;Anthropic、OpenAI也收紧补贴,“低价无限用”的时代一去不返。对企业来说,“省钱”的核心不再是找低价模型,而是找“高效+稳定”的模型,MiMo精准踩中这一需求。
![]()
四、争议与短板:长链推理弱,营销感引反感
高光之下,MiMo-V2.5-Pro也暴露明显短板,用户吐槽集中在三大问题,甚至有开发者直言“小米现在做一切都是为了营销模型和卖token”。
![]()
短板1:长链推理“自我纠错”能力不足
实测中,面对隐秘非报错bug(如数据处理脚本的逻辑漏洞),Pro版和多数国产模型一样查不出,而GPT、Claude能稳定发现。更关键的是:没有明确错误反馈时,无法自主思考排查,需要人类精准指出方向才能定位问题,而DeepSeekV4Pro只需提示检查范围就能发现问题。
用户评价一针见血:“MIMO推理预算被限制厉害,长链推理训练不足,靠自己凭空思考表现差”。
短板2:价格不占优,免费期后用户流失
国内市场,MiMo定价高于DeepSeek、GLM等同级别模型,免费试用结束后,用户使用占比持续下降。对中小企业和个人开发者来说,“效率优势”不足以抵消“高价”的顾虑,尤其非高强度Agent任务时,低价模型更划算。
短板3:营销感过重,“罗福莉出镜”引反感
模型发布节奏“一月一更”,核心负责人罗福莉频繁公开露面、接受采访,被质疑过度营销。有用户吐槽:“小米现在做AI,不是为了技术落地,而是为了营销产品、卖token,太急功近利”。这种“流量优先”的打法,让部分技术向开发者产生抵触情绪,影响口碑沉淀。
五、行业影响:国产Agent模型崛起,开源商业化加速
小米MiMo-V2.5系列的开源,绝非“又一个国产模型”那么简单,而是国产大模型从“追参数”到“拼落地”的转折点,对行业有三大深远影响。
1.国产Agent模型跻身全球第一梯队
此前,Agent能力被Claude、GPT等闭源模型垄断,国产模型多停留在“聊天、写文案”阶段。MiMo-V2.5-Pro的出现,证明国产模型在长周期任务、复杂软件工程领域能与国际顶模正面竞争,甚至在部分场景(如编译器开发)表现更优。加上DeepSeek、智谱GLM等选手,国产Agent模型已形成“第一梯队”,打破海外垄断。
2.MIT开源推动国产模型商业化落地
宽松的MIT许可证是关键一步——允许商用、自由修改、本地部署,解决企业“数据隐私、授权成本、定制化”三大痛点。此前,国产模型多采用非商用或严格授权协议,企业不敢用、不能用。MiMo的开源策略,有望带动更多国产模型转向“商用友好”,加速AI在企业端的落地。
3.Agent赛道成竞争核心,Token效率成胜负手
小米、DeepSeek、智谱等玩家的发力方向一致:放弃“通用聊天”内卷,主攻Agent智能体赛道。未来,大模型的竞争不再是“谁参数大、谁跑分高”,而是“谁能更高效、更稳定地完成复杂长任务”。Token效率、长上下文一致性、工具调用稳定性,将成为模型的核心竞争力,直接决定企业使用成本与落地价值。
小米MiMo-V2.5系列的开源,是国产AI大模型发展的重要里程碑——它用硬核实测证明,国产模型在长周期复杂任务上能比肩国际顶模;用MIT开源协议,为企业商用落地扫清障碍;用Token效率优势,回应行业“降本增效”的核心需求。
但短板同样明显:长链推理能力不足、定价偏高、营销感过重,这些问题不解决,难以从“现象级模型”变成“行业标配”。未来,小米需要平衡“技术迭代”与“口碑沉淀”,减少过度营销,聚焦打磨模型核心能力;同时优化定价策略,让更多中小企业用得起、用得好。
AI智能体时代已来,大模型的竞争才刚刚开始。MiMo-V2.5系列的亮相,不是终点,而是国产模型“从技术追赶走向生态引领”的新起点。接下来,能否把“硬核能力”转化为“落地价值”,能否在全球竞争中站稳脚跟,时间会给出答案。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.