网易首页 > 网易号 > 正文 申请入驻

MiniMax M3终于来了,指标很强,但社区炒翻了

0
分享至

文 | AIDeepDive

今天打开手机,原本只想扫一眼股价,结果看到了MiniMax股价大跌15%。

然后赶快去翻了翻新闻,原来是M3发布了。

我读了一下M3的技术报告,坦白说,真的不差,从各项benchmark来看,甚至是惊艳的。

SWE-Bench Pro 59%,超了GPT-5.5,逼近Opus 4.7,BrowseComp 83.5直接把Opus 4.7踩在脚下,百万上下文,原生多模态,外加自研MSA稀疏注意力架构。

虽然股价一直跟业绩和实力没什么关系,但这两个信息放在一起更诡异了。

我又翻了下X上的评论和开发者社区,结果骂声确实比叫好声更响,特别是中文社区。

那确实要聊聊这两级分化了。

先说说指标里的“小心思”

59%的SWE-Bench Pro,这个数字本身没什么问题。

SWE-Bench Pro是目前公认最接近真实软件工程场景的基准,考的是用代码修真实项目里的bug,还得跑测试验证,不能蒙,含金量是够的。59%是个实打实的高分。


但翻到MiniMax技术报告里,Terminal Bench 2和VIBE-Pro这两个测试有一行注释,它写着,使用了Claude Code作为评测脚手架进行测试。 !


这意味着MiniMax采用了Claude Code的工具链,测自己模型的Coding能力,然后拿这个分数去跟Claude Opus 4.7做比较。

这个操作我不是很能理解。

我不清楚其他的模型是否也是这样评测的?只有MiniMax说了“真话”?又或者只有MiniMax是这样的?

我仔细翻了一下,其实SWE benchmark、Terminal Bench 2和VIBE-Pro都是基于Claude Code做的测试。

准确来说,像Terminal Bench 2这类需要在环境里连续执行工具调用的Agent评测,在当前行业里用脚手架跑是惯例,Claude Code、OpenCode都是常见选择。

脚手架本身不是问题,问题在于,当你用A的框架测B的能力,然后对外宣传跟A比肩,这样就有点“不讲武德”了。

模型的原生能力,跟“用某个脚手架跑出来的能力”,是两件事。

用户很难分辨SWE-Bench Pro 59%这个数据里有多少是模型能力,有多少是脚手架加成,这就难怪很多人已经完全不信各种评测指标了。


在MiniMax官号下面,这样的吐槽比比皆是。


我们来说说“开源”的诚意

与其他发布的开源模型不同,MiniMax这次没有公布模型大小。

究竟是一个多大的模型取得了这样的成绩?这让开发者们充满困惑。

其次让很多开发者不满的,是没有公布模型“权重”。官方说法是“发布后10天内开源”,模型先API上线,权重后面跟上。

这又回到了上面的话题,这种做法充满“心机”。面向一向追求坦诚的程序员来说,这种做法可以理解,但不那么“坦荡”。

为什么这么说?这种安排,更多是商业逻辑上的考虑,我觉得我特别能理解。就是先通过API收回一波成本,再开源,无可厚非。

但如果你今天对社区宣传的是“开源”,但又不给权重,社区没有办法在本地环境里验证任何评测数据。所有人只能通过API访问模型,既无法复现benchmark,也无法独立摸清模型底细。

开源社区的核心价值就是“可复现、可验证”。

所以当先宣传开源,再说权重“过几天给“,这两件事放在一起,社区的质疑声也就很自然了。

类似这种


或者这种


最渣心的,还是Coding Plan的调整

前两个都还是技术范畴的讨论,Coding Plan的调整才是骂声最集中的地方。

以前MiniMax的Coding Plan一直以“量大管饱”著称。

它是按照请求次数来做模型,限制的是速率,每5小时滚动窗口内的请求次数,但没有月度Token总量的上限。一个重度开发者,只要不超速,可以持续低速地跑。

有老用户算过,他一个月实际跑下来消耗了三十亿token,有的甚至五十亿+,而月费就是那几十块钱。

这是之前的“黄金时代”,每个月无上限地跑,自己控制节奏。

但是,在没有预告的情况下,M3发布同步推了Token Plan,把这套规则改了。

改成了什么?按总量来看。Plus套餐49块6亿token,官方说相当于Claude Pro 5倍用量,听起来很划算。

但官方细则深究一下,这个6亿token是按单次调用50K token来估算的,折算出来大约是12000次调用。


你想想看,M3支持百万上下文,真正的重度使用场景,单次调用几十万token是常态,6亿token一下子就见底了。

更不接受的是原来承诺老用户不受周限额限制,现在却出尔反尔。这怎么可能不炸呢?


官方很快出来回应:


V2EX上有用户直接把这次和之前的“代金券事件”并列,说MiniMax这是又背刺了一次老用户。

能让用户翻出来历史账单一起算,说明积累的信任是真的在消耗。

说回技术本身,MSA这个创新有点意思

其实,MiniMax的这个发布是有点意思的,但都被一系列“骚操作”盖住了。

特别是M3的底层架构创新,我个人觉得还是有一些新东西令人兴奋的。

MiniMax自研了一个叫MSA(MiniMax Sparse Attention)的稀疏注意力机制。


传统Transformer的注意力计算是O(n²)的,上下文长度翻10倍,计算量暴涨100倍,这是做长上下文一直绕不开的魔咒。

MSA的思路是对KV(Key-Value)做高精度的分块,然后做稀疏化,相比之前DSA、MoBA这些方案,它能更精准地覆盖到有用的上下文,而不是随机裁掉一些。

与此相关的是底层算子层面,首创了「以KV为外循环去聚合Q」的计算方式,每个KV块只被读一次,内存访问是连续的,速度比开源的Flash-Sparse-Attention快4倍以上。

实际效果,跟上一代M2相比,在百万上下文下,prefilling阶段加速超过9倍,decoding加速超过15倍,单token计算量只有上一代的1/20。

这个方案与之前DeepSeek的路径也有所不同。DeepSeek V4主攻的是“混合压缩架构”与“极低精度计算” (CSA + HCA机制)。

这意味着什么,以前跑百万上下文是奢侈品,现在是真的能用的基础设施了。

从技术路线来看,MiniMax在长上下文、多模态和Agent能力这三块的均衡程度,在国内厂商里确实算突出的。

其他家可能某一块打得很猛,但三个同时达到前沿水位的,M3是第一个对外宣称的。这个宣称对不对,等独立评测结果出来再看,但方向本身是很清晰的。

最后说几句

真不知道应该怎么理解这次M3的发布,是因为沉寂太久,所以太着急?太焦虑了?

模型本身是在进步的,MSA架构是真创新,长上下文推理效率是实打实提升了,三模态均衡(而且是原生多模态)这件事也确实是难的。

但发布的方式确实是在消耗用户信任,这在争抢开发者的市场里,这番操作让人看不明白。

开源社区的理解很朴素,你说开源就得给权重,你说诚意就别搞文字游戏,你要改价格就得提前说清楚。

现在的局面,骂声和期待同时存在,这本身是个好信号,说明大家还在关注,还有情绪,还没有走人。

就看MiniMax接下来这10天,权重放出来之后,独立评测会不会把那些指标打回原形了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
禁止所有中国外交官入境,这个国家比美国还嚣张?

禁止所有中国外交官入境,这个国家比美国还嚣张?

福建睿平
2026-06-03 14:30:38
还是郭士强会用!焦泊乔被盘活,徐昕统治篮下,杜锋耽误他们了!

还是郭士强会用!焦泊乔被盘活,徐昕统治篮下,杜锋耽误他们了!

篮球资讯达人
2026-06-03 21:32:22
难堪大任!王楚钦任国乒队长不到36小时,乒协主席王励勤受到牵连

难堪大任!王楚钦任国乒队长不到36小时,乒协主席王励勤受到牵连

削桐作琴
2026-06-03 16:23:15
“这么小就有阴德纹,不简单”,小学女生面相,说明了家长不一般

“这么小就有阴德纹,不简单”,小学女生面相,说明了家长不一般

熙熙说教
2026-06-03 19:54:25
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
热身赛:中国男篮6人上双险胜FMP 王俊杰18+14+11前板徐昕10+8

热身赛:中国男篮6人上双险胜FMP 王俊杰18+14+11前板徐昕10+8

醉卧浮生
2026-06-03 21:23:24
这4个行业,已经发不出工资了!真的很严重了

这4个行业,已经发不出工资了!真的很严重了

世界圈
2026-06-03 10:19:49
王月眉,被驱逐出中国!

王月眉,被驱逐出中国!

新动察
2026-06-03 14:10:21
郑丽文抵美不到24小时,鲁比奥突然承认现实,一句表态信息量很大

郑丽文抵美不到24小时,鲁比奥突然承认现实,一句表态信息量很大

邱震海
2026-06-03 21:05:03
一夜烧掉3亿美元!克宫:只要乌军撤出“俄罗斯”就能当天停战

一夜烧掉3亿美元!克宫:只要乌军撤出“俄罗斯”就能当天停战

鹰眼Defence
2026-06-03 17:04:04
彭博亿万富豪指数公布:字节跳动张一鸣以928亿美元身家跃升亚洲第二大富豪,全世界排名第21位

彭博亿万富豪指数公布:字节跳动张一鸣以928亿美元身家跃升亚洲第二大富豪,全世界排名第21位

台州交通广播
2026-06-03 21:22:38
【油价调整】“明晚24点,油价暴跌520元/吨!92号汽油一夜跌回8元时代,千万别今天加油”

【油价调整】“明晚24点,油价暴跌520元/吨!92号汽油一夜跌回8元时代,千万别今天加油”

新浪财经
2026-06-03 19:07:56
夏天,遇见这肉再贵也要吃,比牛羊肉补,一周吃2次,健脾强免疫

夏天,遇见这肉再贵也要吃,比牛羊肉补,一周吃2次,健脾强免疫

阿龙美食记
2026-06-03 14:09:28
挪威发现载有大量中国瓷器18世纪沉船

挪威发现载有大量中国瓷器18世纪沉船

澎湃新闻
2026-06-02 21:34:28
江西一民警驾车肇事致1死1残,一审获刑1年2个月,伤残者已申请抗诉:人行道上被汽车高速冲撞当场昏迷,为试管婴儿准备3年因车祸毁于一旦

江西一民警驾车肇事致1死1残,一审获刑1年2个月,伤残者已申请抗诉:人行道上被汽车高速冲撞当场昏迷,为试管婴儿准备3年因车祸毁于一旦

都市快报橙柿互动
2026-06-03 14:08:54
中美俄英法都在名单里,印媒公开喊话环球时报:凭啥就没有印度?

中美俄英法都在名单里,印媒公开喊话环球时报:凭啥就没有印度?

福建睿平
2026-06-03 08:03:32
成都高新区通报两家酒店存卫生问题:均已完成停业整顿

成都高新区通报两家酒店存卫生问题:均已完成停业整顿

界面新闻
2026-06-03 22:23:11
不想上班?辞职上山的年轻人最后还是下山了

不想上班?辞职上山的年轻人最后还是下山了

红星新闻
2026-06-03 20:56:44
两位院士候选人接连被查

两位院士候选人接连被查

中国新闻周刊
2026-06-03 20:03:49
今年高考很平静:只有985、211找得到好工作,其他80%都是销售相关工作

今年高考很平静:只有985、211找得到好工作,其他80%都是销售相关工作

老郭在学习
2026-06-03 13:31:11
2026-06-03 23:07:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
134547文章数 862216关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

公司半夜通知全员放假一夜搬空 员工被拖欠数百万工资

头条要闻

公司半夜通知全员放假一夜搬空 员工被拖欠数百万工资

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

数码
家居
房产
艺术
公开课

数码要闻

IDC预测2026年PC出货量下滑11.3% MacBook Neo逆势增长

家居要闻

江畔轻奢 观云大宅

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

艺术要闻

二十年前割麦的场景

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版