网易首页 > 网易号 > 正文 申请入驻

我MiniMax,用实习生处理数据,照样屠榜开源大模型

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

屠榜开源大模型的MiniMax M2是怎样炼成的?

为啥M1用了Linear Attention,到了M2又换成更传统的Full Attention了?

现在的大模型社区,可谓是被M2的横空出世搞得好不热闹。

面对现实任务,M2表现得非常扛打,在香港大学的AI-Trader模拟A股大赛中拿下了第一名,20天用10万本金赚了将近三千元。



而之所以能够站在聚光灯下,还有一个原因是M2身上着实有不少奇招。

除了注意力机制“回归传统”,M2在数据处理、思考模式上也是另辟蹊径,给开源社区带来了不一样的技术路径。

而且MiniMax还公开了这些招数背后的“棋谱”,接连发布三篇技术博客,将M2的技术细节娓娓道来。

博客一发布,本已讨论得热火朝天的大模型社区变得更热闹了,不乏有大佬给出自己的分析。

其中也包括质疑的声音,比如Thinking Machine Lab技术人员Songlin Yang就表示——

MiniMax团队敢于揭露Linear Attention的不足这点值得肯定,但他们的测试有问题,低估了Linear Attention的实力。



实际上,注意力机制的选择,也确实是M2相关问题当中最热门的一个。

M2团队选择的理由究竟是什么?三篇技术报告揭开了哪些秘密?

快搬起小板凳,我们一点点往下看。

5202年了,还有人用Full Attention?

就从网友们最好奇的Full Attention机制开始说起。

毕竟现在算力十分稀缺,MiniMax却没有选择更省算力的Linear和Hybrid等机制。

加上M2的上一代M1用的就是Linear Attention,这次却换了方案,更是给这个选择添上了几分神秘色彩。

这个问题看似复杂,但MiniMax的理由却非常简单有力——试出来的。

M2团队希望构建的是一个真正可用于商业部署的通用模型,所以稳定性和可靠性就成了优先考量。

一开始,他们确实也试了Efficient Attention,结果发现,用了这些机制之后的模型,虽然在小任务上表现尚可,但随着上下文长度的拉长,性能就大幅下降了。

一番折腾之后,团队最终决定放弃Efficient路径,转而回归稳定可靠的Full Attention。

而且团队试过的路比想象中多得多,Blog下方有网友追问,是否尝试更多的Linear Attention变体,比如GDN或Mamba2。



而团队成员表示,这些方法也都尝试过,但结果只有一个——这些方法的实际表现都不及Full Attention。



也就是说,Efficient Attention看似是命运的馈赠,实际上早已在暗中标好了价格。

M2的当头一棒,让人们开始意识到,所谓的“免费午餐”根本就不存在。

比如这位网友过去就认为,Lightning Attention与Full Attention混合起来效果和纯Full Attention是一样的,但他现在发现,对于复杂任务而言根本不是这么回事。



不过MiniMax也并没有把其他Attention一棒子打死,M2团队探讨了这些Attention未来的改进方向。

但问题不是出在Attention本身,而是人们缺乏有效的评估系统。

M2团队指出,现在的模型评测系统不完善,很多常用榜单根本拉不开差距,造成了Efficient Attention表现能与Full Attention持平的假象。

可只要一遇到多跳推理或长链逻辑过程这种高端局,Efficient Attention就立马现原形。

推理基础设施也需要进一步提升——如何将理论计算复杂度优势转化为应用层面的速度和价格优势,是目前业界仍在攻克的方向。

总之,要想转化为实际生产力,需要提前构建更丰富的长文数据、更完善的评测体系、更贴近部署场景的实验范式,以及更稳定的训练与推理基建。

但随着Context Length越来越长,尤其是在Pretrain和Posttrain阶段都面临长上下文挑战的背景下,未来某个阶段GPU的增长速度可能赶不上数据长度增长带来的压力,那时Linear或Sparse结构的优势将会逐渐释放。

想让模型做好推理,还得从数据开始

现在骨架(模型)搭好了,该往里面填肉(数据)了,有意思的是,这件事,M2团队雇了一帮实习生来干,还把这个细节写到了博客里。

网友看了就很纳闷,直言自己get不到M2团队强调这个细节的目的。



面对这样犀利的提问,作者也是丝毫不卖关子。

之所以强调实习生呢,是想反衬出M2用的数据处理流程非常成熟,成熟到让没有经验的人来操作,一样可以达到预期效果。



说到底,M2团队是咋处理数据的?咱们接着往下看。

他们希望模型能够具有更强的泛化能力,也就是能够适应更多的任务类型。

确定了这个目标之后,筛选数据的标准自然也就有了。

M2团队把数据质量的衡量标准拆解成了思维链(CoT)和Response这两个关键维度。

CoT部分的标准很容易理解,逻辑完整、表述简洁,就是优质数据,符合我们的常识。

Response部分就更能体现M2团队的巧思了。

前面说过,团队的目的是想让模型适应更多场景,而在他们看来,Response数据,刚好就是症结所在——

过去的Response数据,对榜单格式的依赖已经达到过拟合了,导致换个环境就秒变战五渣。

所以,M2在数据合成时刻意引入了格式多样性。

当然只靠形式是不够的,数据内容本身,也要尽可能多地涉猎不同领域的任务。

好的数据要广泛吸纳,不好的数据则要及时剔除——

M2团队发现,模型表现出的所有问题,包括幻觉、指令未遵循等等,几乎都能从数据上找到根源。

所以在处理数据时,他们专门整理了一批典型的bad case,基于规则和大模型判断,构建了数据清洗流程,从而消灭这些“坏数据”。

数据范围更加广泛,质量也有了保障之后,接下来的事,就是扩大数据规模了。

交叉思考,让模型不再“高分低能”

在M2团队的实践过程中,有一个“高分低能”的问题贯穿始终——模型一考试成绩都很高,但到了真实场景就被虐得渣也不剩。

这个问题在Agent场景中也是如此,甚至同一个模型,在不同的Agent系统里体验差异也会非常大。

问题出在了哪里呢?M2团队对Agent执行任务的流程进行了拆解。

Agent在执行任务时,会分析用户的意图,然后做出任务规划,之后付诸执行,中间过程还会涉及外部工具的调用。

在传统的模型当中,Agent会在规划阶段进行思考,但到了执行环节,就变成了既没有思维也没有感情的机器。

但实际工作并不是能够完全依照原始规划进行的,如果不根据执行过程中遇到的实际情况对规划进行调整,那便是刻舟求剑,任务做不好就不是什么怪事了。

而要想根据每步的执行结果进行动态调整,就需要把原先只在开头进行的思考过程,复制到每一个关键节点。

所以,M2团队提出了“Interleaved Thinking”(交错式思维链)的策略。

这种策略让思考在显式推理与工具调用之间交替进行,并把推理结果持续带入后续步骤,这样一来原本冗长、重度依赖工具的任务,就变成了稳定的“计划→行动→反思”循环。

Interleaved Thinking保持了思维链的连贯性,使其在多轮交互中不断累积,更加接近人类的任务执行方式,也减少了状态漂移与重复性错误的产生。

实际应用当中效果也是立竿见影,不仅提升了模型在长链任务中的容错率,也显著增强了对环境扰动的适应能力。

除了新的思考模式,泛化也是M2团队自始至终在强调的一个关键指标。

他们发现,即便模型的工具调用能力得到大幅提升,但只要换个框架,模型依然容易失控。

怎么办呢?简单说,菜就多练——M2团队选择从训练数据下手。

他们设计了一整套覆盖全轨迹扰动的数据链路,在构建训练样本时,他们不仅模拟了工具本身的变化,还覆盖了系统提示语、环境参数变化、用户反复提问、工具返回异常等多种情况。

看上去指标很复杂,但简单概括就是,让这些训练数据尽可能多地去模拟真实使用场景,在训练中就学会如何在不确定性中完成任务。

能实现落地,才是好选择

回看M2的结构选择,MiniMax并不是为了“回归传统”而选择Full Attention。

相反,在Efficient Attention广受追捧的当下,坚持使用Full Attention恰恰体现了团队更偏工程理性的判断——优先考虑模型在真实任务中的稳定性与可用性,而非盲目追求资源的节省。

这并非首次类似决策,例如早在MoE架构尚未成为行业主流前,MiniMax就已投入探索,并取得阶段性成果。

彼时,选择MoE的厂商寥寥,MiniMax却凭借自身理解做出了不同判断,并最终验证了可行性。

可以看出,MiniMax不仅拥有深刻的技术洞察,更突出以实用性为导向,在M2上,这种思路也表现得尤为明确——

它不是一个为参数堆叠而生的“炫技模型”,而是为开发者准备的落地工具,强调解释逻辑、兼顾系统性,并不断通过社区反馈与真实使用场景持续迭代。

在今天这个“结构百花齐放”的阶段,MiniMax展示的,不只是模型能力本身,更是一套面向复杂现实问题的思考方式。

比起抢占某个风口,拥有一套稳定可用、被理解并认可的工程体系,也许更具意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

启迪你的思维
2026-02-02 20:56:29
中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

中国航天重大损失,实践三十二号发射失利,中国航天开年遇挫!

阿龙聊军事
2026-01-18 20:27:20
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
湖北95后小伙从上海走回老家过年!36天瘦了27斤

湖北95后小伙从上海走回老家过年!36天瘦了27斤

大风新闻
2026-02-07 11:36:06
揭秘哈登换队内幕:本有意重返休斯顿打球 但火箭没兴趣推进交易

揭秘哈登换队内幕:本有意重返休斯顿打球 但火箭没兴趣推进交易

罗说NBA
2026-02-07 04:39:01
炸裂!绿军首秀11+12!你好,全明星大中锋!

炸裂!绿军首秀11+12!你好,全明星大中锋!

篮球实战宝典
2026-02-07 22:40:27
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
《太平年》直到冯道下线,才明白,郭荣抱憾而终、钱弘俶被迫归降

《太平年》直到冯道下线,才明白,郭荣抱憾而终、钱弘俶被迫归降

日落于西
2026-02-07 20:32:46
广西壮族自治区河池市人大常委会原党组书记、主任潘育伟接受审查调查

广西壮族自治区河池市人大常委会原党组书记、主任潘育伟接受审查调查

界面新闻
2026-02-07 17:07:32
韩媒:中国男足最近已3次击败乌兹别克,中国足球正蓬勃发展!

韩媒:中国男足最近已3次击败乌兹别克,中国足球正蓬勃发展!

邱泽云
2026-02-07 16:15:24
再放任不管,中国孩子就废了?央媒发文批这一现象

再放任不管,中国孩子就废了?央媒发文批这一现象

新东方
2026-02-05 15:54:13
外媒:挪威王储妃梅特·玛丽特就涉爱泼斯坦案致歉

外媒:挪威王储妃梅特·玛丽特就涉爱泼斯坦案致歉

环球网资讯
2026-02-07 14:10:36
明某某(女,68岁)为图省事,从小区15楼抛下11公斤重的皮椅,被采取刑事强制措施!

明某某(女,68岁)为图省事,从小区15楼抛下11公斤重的皮椅,被采取刑事强制措施!

环球网资讯
2026-02-07 12:43:07
湖北开放大学校长陈志祥被查,曾任湖北宏泰集团总经理

湖北开放大学校长陈志祥被查,曾任湖北宏泰集团总经理

澎湃新闻
2026-02-07 15:25:05
中国气候最不宜居的城市是哪里?

中国气候最不宜居的城市是哪里?

龙牙的一座山
2025-12-20 11:11:50
程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

黎兜兜
2026-02-07 17:15:28
2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

山河路口
2026-02-07 18:05:12
特朗普,别幸灾乐祸了,被当作替罪羊的希拉里,开始咬人了!

特朗普,别幸灾乐祸了,被当作替罪羊的希拉里,开始咬人了!

北纬的咖啡豆
2026-02-07 11:33:56
郑爽状态诡异疑精神失常!街头抱娃与张恒家争执,满头白发穿搭邋遢

郑爽状态诡异疑精神失常!街头抱娃与张恒家争执,满头白发穿搭邋遢

八卦王者
2026-02-06 16:05:07
万科郁亮有这么多不为人知的可怕内幕!

万科郁亮有这么多不为人知的可怕内幕!

廖保平
2026-02-07 09:19:10
2026-02-08 00:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12132文章数 176373关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
手机
家居
旅游
亲子

这款20年前的二战游戏,为何至今仍是难以超越的神作?

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

家居要闻

现代轻奢 温馨治愈系

旅游要闻

“甜”度拉满!金湾区70项活动点亮农文商旅融合年味

亲子要闻

韩网热帖:男性如果能怀孕分娩会愿意生孩子吗?

无障碍浏览 进入关怀版