一直缺席大模型竞争的小米,在天才少女罗福莉的带领下,终于正式发布了自研大模型 MiMo-V2 系列。
小米近日一口气拿出 Pro 基座、Omni 全模态、TTS 语音三款模型,主打 Agent 智能体、长上下文与全模态理解。
在官方宣传中,小米称 MiMo-V2-Pro 参数规模与上下文长度都做到了当前第一梯队水平,迅速登顶 OpenRounter 榜单,并拿下 Artificial Analysis 综合智能排行榜第八。
但一边是被米粉调侃的“传奇耐黑王”,一边是因为营销宣传引起几次大的争议的事实,小米本次大模型宣传也引发了争论。
作为普通用户,确实很难评价大模型的性能表现。出于谨慎,我们研究了下小米此次重点宣传的榜单排名,一起看看这些排名成绩有多少含金量?
技术实力排名,还是市场运营成果?
小米官方在宣传中,主要用两套评价体系支撑 “国际先进” 的定位:一套是 Artificial Analysis 综合榜单,另一套是 OpenRouter 平台的调用量排名。
我们先看 Artificial Analysis 榜单。小米 MiMo-V2-Pro 在此榜单中取得全球第八、国内第二的成绩,也是其 “国际一流” 说法的主要来源。
![]()
Artificial Analysis 榜单的评测方法简洁明了,核心围绕智能体能力、代码、科学推理、通用智能四大维度,涵盖 10 项高难度基准,采用 “客观题 + 主观题” 结合的方式:
客观题(如代码运行、数学推理、终端执行)由机器自动判分,确保准确性。
主观题(如文案生成、逻辑表达、文档质量)则由 AI 裁判(而非真人)进行盲测打分,采用 Elo 评级方式对比模型表现。
但Artificial Analysis的关键问题是,AI 裁判并非完全中立 —— 它有固定的偏好(如偏爱结构清晰、语气正式的答案),厂商可针对性优化模型输出,对齐 AI 裁判的打分习惯,从而提升主观题得分。
不过Artificial Analysis官方也对此做了多项限制,比如采用多 AI 裁判交叉验证、零样本测试、高难度动态题库,大幅降低了针对性优化的空间。
总体而言,这种针对性优化的问题虽不严重,不会导致成绩完全失真,但肯定存在优化得当使得模型排名可能比其真实综合实力略高的情况。
再看被广泛传播的 OpenRouter 调用量第一榜单。
小米创办人,董事长兼CEO雷军发文称,OpenRounter 是全球最大的大模型API聚合平台,AI应用开发者可以在这里调用自己想用的模型。这是对模型能力、速度和成本综合实力考验。调用量越高,一般意味着开发者的认可度越高。
![]()
但实际上,OpenRouter 排名核心指标仅为 Token 总消耗量,并不直接反映模型质量。
这种机制的人为影响因素非常明显:新品上线常见的大额免费额度、低价补贴、内部测试流量、定向引流等,都能在短期内显著拉升调用数据。
更关键的是,平台并未区分真实用户与模型方发起的调用,厂商完全可以通过自身账号批量主动调用,直接抬高排名。
此次 小米MiMo 以 Hunter Alpha 匿名上线即快速登顶,同期多款国产模型在该平台出现异常暴涨的调用曲线,可能也侧面印证了这类操作的普遍性。
而且调用量只代表被使用的规模,无法体现用户满意度、任务完成率与实际效果,更无法等同于模型能力的强弱。
因此 OpenRouter 的排名本质更接近市场运营结果,而非技术实力的客观证明。
MiMo缺席的榜单
值得注意的是,笔者发现小米MiMo至今并未出现在LMSYS Chatbot Arena的盲测排名中。
笔者曾在之前的文章《国外的模型更好用?我们做了一下专项研究》中,介绍过为什么这个盲测更能说明真实性能。
作为业内最贴近真实用户体验、最难被干预的评测体系,LMSYS依靠海量真人匿名双盲对决形成ELO排名,公信力显著更高。
小米MiMo未上榜,可能大概率是因为模型刚发布、尚未提交参评,或暂时未接入社区评测平台,并不直接代表模型能力不足。但小米MiMo确实缺少了最具说服力、最难以造假的第三方口碑佐证。
综合来看,小米MiMo所主打宣传的两套评价体系,的确带有明显的营销倾向,成绩中存在可优化、可运营的空间,不能完全等同于模型的绝对实力。
但考虑到大模型的技术难度以及所谓“优化榜单排名”的难度,即便剔除榜单水分,MiMo在架构设计、能力方向与实际表现上依然具备扎实基础,足以跻身国内第一梯队优秀大模型行列,并非虚有其表。
更关键的是,MiMo从底层设计就重点强化了Agent智能体能力,而小米本身拥有手机、汽车、智能家居等完整的硬件生态。模型擅长的工具调用、多步规划、跨设备执行,恰好能与小米的全场景硬件深度结合。
并且,小米还有“超能力”,雷军宣布,在AI领域,小米今年的研发和资本投入就将超过160亿元。
榜单排名只是短期话题,模型与生态的协同落地,才是MiMo未来真正值得期待的长期价值。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.