网易首页 > 网易号 > 正文 申请入驻

小米MiMo大模型:榜单排名亮眼,但真实含金量到底有多少?

0
分享至

一直缺席大模型竞争的小米,在天才少女罗福莉的带领下,终于正式发布了自研大模型 MiMo-V2 系列。

小米近日一口气拿出 Pro 基座、Omni 全模态、TTS 语音三款模型,主打 Agent 智能体、长上下文与全模态理解。

在官方宣传中,小米称 MiMo-V2-Pro 参数规模与上下文长度都做到了当前第一梯队水平,迅速登顶 OpenRounter 榜单,并拿下 Artificial Analysis 综合智能排行榜第八。

但一边是被米粉调侃的“传奇耐黑王”,一边是因为营销宣传引起几次大的争议的事实,小米本次大模型宣传也引发了争论。

作为普通用户,确实很难评价大模型的性能表现。出于谨慎,我们研究了下小米此次重点宣传的榜单排名,一起看看这些排名成绩有多少含金量?

技术实力排名,还是市场运营成果?

小米官方在宣传中,主要用两套评价体系支撑 “国际先进” 的定位:一套是 Artificial Analysis 综合榜单,另一套是 OpenRouter 平台的调用量排名。

我们先看 Artificial Analysis 榜单。小米 MiMo-V2-Pro 在此榜单中取得全球第八、国内第二的成绩,也是其 “国际一流” 说法的主要来源。



Artificial Analysis 榜单的评测方法简洁明了,核心围绕智能体能力、代码、科学推理、通用智能四大维度,涵盖 10 项高难度基准,采用 “客观题 + 主观题” 结合的方式:

客观题(如代码运行、数学推理、终端执行)由机器自动判分,确保准确性。

主观题(如文案生成、逻辑表达、文档质量)则由 AI 裁判(而非真人)进行盲测打分,采用 Elo 评级方式对比模型表现。

但Artificial Analysis的关键问题是,AI 裁判并非完全中立 —— 它有固定的偏好(如偏爱结构清晰、语气正式的答案),厂商可针对性优化模型输出,对齐 AI 裁判的打分习惯,从而提升主观题得分。

不过Artificial Analysis官方也对此做了多项限制,比如采用多 AI 裁判交叉验证、零样本测试、高难度动态题库,大幅降低了针对性优化的空间。

总体而言,这种针对性优化的问题虽不严重,不会导致成绩完全失真,但肯定存在优化得当使得模型排名可能比其真实综合实力略高的情况。

再看被广泛传播的 OpenRouter 调用量第一榜单。

小米创办人,董事长兼CEO雷军发文称,OpenRounter 是全球最大的大模型API聚合平台,AI应用开发者可以在这里调用自己想用的模型。这是对模型能力、速度和成本综合实力考验。调用量越高,一般意味着开发者的认可度越高。



但实际上,OpenRouter 排名核心指标仅为 Token 总消耗量,并不直接反映模型质量。

这种机制的人为影响因素非常明显:新品上线常见的大额免费额度、低价补贴、内部测试流量、定向引流等,都能在短期内显著拉升调用数据。

更关键的是,平台并未区分真实用户与模型方发起的调用,厂商完全可以通过自身账号批量主动调用,直接抬高排名。

此次 小米MiMo 以 Hunter Alpha 匿名上线即快速登顶,同期多款国产模型在该平台出现异常暴涨的调用曲线,可能也侧面印证了这类操作的普遍性。

而且调用量只代表被使用的规模,无法体现用户满意度、任务完成率与实际效果,更无法等同于模型能力的强弱。

因此 OpenRouter 的排名本质更接近市场运营结果,而非技术实力的客观证明。

MiMo缺席的榜单

值得注意的是,笔者发现小米MiMo至今并未出现在LMSYS Chatbot Arena的盲测排名中。

笔者曾在之前的文章《国外的模型更好用?我们做了一下专项研究》中,介绍过为什么这个盲测更能说明真实性能。

作为业内最贴近真实用户体验、最难被干预的评测体系,LMSYS依靠海量真人匿名双盲对决形成ELO排名,公信力显著更高。

小米MiMo未上榜,可能大概率是因为模型刚发布、尚未提交参评,或暂时未接入社区评测平台,并不直接代表模型能力不足。但小米MiMo确实缺少了最具说服力、最难以造假的第三方口碑佐证。

综合来看,小米MiMo所主打宣传的两套评价体系,的确带有明显的营销倾向,成绩中存在可优化、可运营的空间,不能完全等同于模型的绝对实力。

但考虑到大模型的技术难度以及所谓“优化榜单排名”的难度,即便剔除榜单水分,MiMo在架构设计、能力方向与实际表现上依然具备扎实基础,足以跻身国内第一梯队优秀大模型行列,并非虚有其表。

更关键的是,MiMo从底层设计就重点强化了Agent智能体能力,而小米本身拥有手机、汽车、智能家居等完整的硬件生态。模型擅长的工具调用、多步规划、跨设备执行,恰好能与小米的全场景硬件深度结合。

并且,小米还有“超能力”,雷军宣布,在AI领域,小米今年的研发和资本投入就将超过160亿元。

榜单排名只是短期话题,模型与生态的协同落地,才是MiMo未来真正值得期待的长期价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从宗庆后到王健林张近东,子女大比拼:比来比去,还是宗馥莉最强

从宗庆后到王健林张近东,子女大比拼:比来比去,还是宗馥莉最强

老方
2026-03-19 15:41:04
英媒:中国已经向全球证明,未来各国都需要用到中国这项技术!

英媒:中国已经向全球证明,未来各国都需要用到中国这项技术!

你是我心中最美星空
2026-05-22 04:16:41
黄仁勋被粉丝偶遇追着抢买单 当场拒绝:我比较有钱 不用请我

黄仁勋被粉丝偶遇追着抢买单 当场拒绝:我比较有钱 不用请我

快科技
2026-05-29 12:29:06
韩国人气女星官宣产女,晒宝宝脚印照报平安

韩国人气女星官宣产女,晒宝宝脚印照报平安

自愈小日子
2026-06-01 01:24:43
利物浦拟定新帅!贝尔萨门徒或本周上任

利物浦拟定新帅!贝尔萨门徒或本周上任

快乐加载中21
2026-06-01 01:58:57
演员张凌赫工作室道歉:全额补偿交通住宿费!此前粉丝挤爆玻璃门,数人被擦伤送医,线下活动紧急取消

演员张凌赫工作室道歉:全额补偿交通住宿费!此前粉丝挤爆玻璃门,数人被擦伤送医,线下活动紧急取消

新浪财经
2026-05-31 21:09:23
当看到崔天凯出现在现场时,美国人就应该意识到有些事不好糊弄了

当看到崔天凯出现在现场时,美国人就应该意识到有些事不好糊弄了

阿龙聊军事
2026-05-31 13:26:28
中方投弃权票

中方投弃权票

第一财经资讯
2026-05-30 09:10:32
局部38℃以上,真“烤验”来了!山东今夏首个高温预警发布,这些地市最热

局部38℃以上,真“烤验”来了!山东今夏首个高温预警发布,这些地市最热

鲁中晨报
2026-05-31 15:39:02
技不如人?神二十一回家,我国航天员抬着出舱,美国的却活蹦乱跳

技不如人?神二十一回家,我国航天员抬着出舱,美国的却活蹦乱跳

小俎娱乐
2026-05-31 14:06:42
莫城遭毁灭性空袭,俄罗斯民众终于认清现实!

莫城遭毁灭性空袭,俄罗斯民众终于认清现实!

知兵
2026-05-31 16:38:55
中俄管道没谈成,普京转头产生大胆想法:先从中国的一个邻国下手

中俄管道没谈成,普京转头产生大胆想法:先从中国的一个邻国下手

潮鹿逐梦
2026-06-01 01:57:07
内塔尼亚胡没想到,走投无路的泽连斯基,成了自己现在最大的麻烦

内塔尼亚胡没想到,走投无路的泽连斯基,成了自己现在最大的麻烦

自己撑起一片天
2026-05-31 23:26:46
上海一保姆隐藏身份工作13年,业主发现她真正身份后,从30楼跳下去

上海一保姆隐藏身份工作13年,业主发现她真正身份后,从30楼跳下去

故事秘栈
2025-05-26 19:16:38
国际奥委会曾明确表态,对2036年奥运会的申办情况很是失望

国际奥委会曾明确表态,对2036年奥运会的申办情况很是失望

阿振观点
2026-05-31 07:41:16
知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

白面书誏
2026-05-27 20:46:32
王毅访问刚结束,加拿大民众却怒了:卡尼总理,你到底站哪边?

王毅访问刚结束,加拿大民众却怒了:卡尼总理,你到底站哪边?

凉湫瑾言
2026-05-30 16:13:29
从年赚358亿到巨亏234亿,美团为啥沦落至此,难怪国家禁外卖大战

从年赚358亿到巨亏234亿,美团为啥沦落至此,难怪国家禁外卖大战

阿丰聊娱
2026-04-03 14:51:31
生男生女取决于父亲?错!研究发现:决定孩子性别的人是妈妈

生男生女取决于父亲?错!研究发现:决定孩子性别的人是妈妈

菁妈育儿
2026-05-28 07:25:56
26岁10球前锋闹翻全队!自曝今夏离队首选曼联,1个致命软肋让红魔犹豫了

26岁10球前锋闹翻全队!自曝今夏离队首选曼联,1个致命软肋让红魔犹豫了

甜份超标的我
2026-05-31 00:06:36
2026-06-01 03:24:49
科技浮世绘 incentive-icons
科技浮世绘
文字是假的,热爱是真的
208文章数 8关注度
往期回顾 全部

数码要闻

苹果智能眼镜或推迟至2027年末发布 预计会成为200至500美元价位产品

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
亲子
游戏
手机
艺术

教育要闻

unit2 (第五课时) 上

亲子要闻

飞鹤联手中标院定义“鲜活”新标准:奶粉“生日”从原料算起

《巫师3》资料片“血与酒”发售十周年 纪念贺图发布

手机要闻

荣耀7英寸大屏手机曝光,电池继续升级

艺术要闻

耗资约24亿!新美术馆正式开放,深圳人沸腾!

无障碍浏览 进入关怀版