网易首页 > 网易号 > 正文 申请入驻

蚂蚁开源万亿模型:参数战争进入下半场

0
分享至

4月30日,蚂蚁集团百灵大模型团队把Ling-2.6-1T的代码和权重直接丢上了开源社区。没有发布会,没有预热,OpenRouter的免费API调用窗口被开发者挤到延期——这件事的反差感在于:万亿参数级别的旗舰模型,过去是闭源巨头的护城河,现在成了开源社区的公共基础设施。

正方:万亿参数终于"能用"了


支持者的核心论据来自官方公布的五个基准测试。AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench、IFBench——这些名字背后是Agent、Coding、工作流三类真实场景。Ling-2.6-1T在这些执行类基准上达到开源SOTA(当前最优),意味着它不只是参数量的堆砌,而是能跑通多步骤任务。

技术细节里藏着关键取舍。官方明确否定了"更长思考链"和"参数规模体感"这两个主流叙事,转而押注MLA与Linear Attention的Hybrid架构,配合抑制"过程冗余"的强化奖励策略。翻译成人话:模型被训练得更"吝啬"——能用更少的Token消耗完成同等智能水平的输出。

这对企业用户的吸引力是直接的。万亿参数模型的推理成本历来是部署门槛,而"快思考"机制本质上是在压缩单次调用的边际成本。再加上与主流Agent框架的兼容性,Ling-2.6-1T的卖点从"我能做什么"变成了"你能用我多快回本"。

反方:开源SOTA的含金量存疑

质疑者的切口更现实。首先,五个基准测试的覆盖范围是否足够?AIME26是数学推理,SWE-bench是代码修复,BFCL-V4聚焦工具调用,TAU2-Bench和IFBench分别对应复杂决策与指令遵循——这些场景确实高频,但回避了多模态、创意生成、长文档理解等同样真实的业务需求。

更深层的疑问是"智效比"这个核心概念的模糊性。官方声称"在更低Token开销下保持强综合智能",但对比基线是谁?是同参数规模的Dense模型,还是MoE架构的竞品?如果是后者,Hybrid架构的稀疏激活优势是否被公平计入?开源社区尚未看到详细的消融实验数据。

还有一个被忽略的变量:延迟。Token开销降低不等于端到端响应更快。Linear Attention的理论复杂度优势在实际推理中受限于内存带宽和批处理策略,而MLA的KV Cache压缩率与序列长度的关系曲线,官方并未披露。

判断:参数战争的叙事正在失效

我的看法是,Ling-2.6-1T的真正价值不在于它赢了多少基准测试,而在于它公开宣告了一种新的评估范式——从"模型能力上限"转向"任务完成成本"。

这个转向的背景是行业共识的破裂。GPT-4之后,闭源模型的边际提升越来越难以量化;DeepSeek-R1则证明,推理能力的跃升可以不依赖参数规模的线性增长。当"更大即更强"的信仰动摇,市场开始追问:同样的钱,能买多少有效智能?

蚂蚁的选择是把这个追问前置到模型设计阶段。抑制"过程冗余"的强化奖励策略,本质上是在训练阶段就植入成本意识——不是让模型学会思考,而是让模型学会"值得思考时才思考"。这种设计哲学如果成立,将重塑开源社区的微调生态:开发者不再需要为每个垂直场景重新训练,而是可以通过调整奖励函数的权重,快速定制模型的"吝啬程度"。

下一步值得观察的指标有两个:一是企业用户的真实部署反馈,特别是长上下文场景下的KV Cache内存占用;二是社区基于Ling-2.6-1T的二次创新数量——万亿参数的开源底座能否催生出新的应用层范式,比任何基准分数都更能验证这次开源的诚意。

如果你正在评估大模型的落地成本,建议把Ling-2.6-1T放进对比清单。不是因为它参数多,而是因为它把"参数多"和"用得起"之间的张力,变成了一道可解的工程题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈首富终究吞不下云南白药 | 棱镜

陈首富终究吞不下云南白药 | 棱镜

新浪财经
2026-04-24 17:04:15
米体丨格雷茨卡即将点头加盟,中场可能重组

米体丨格雷茨卡即将点头加盟,中场可能重组

米兰圈
2026-04-30 08:57:39
最烦是自发免费做“躺平”内容的人

最烦是自发免费做“躺平”内容的人

不主流讲话
2026-04-28 23:10:32
拜仁球员单赛季进球榜:盖德-穆勒66球第1,凯恩本赛季54球第3

拜仁球员单赛季进球榜:盖德-穆勒66球第1,凯恩本赛季54球第3

懂球帝
2026-04-30 07:11:04
快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

快灭国了却执意和中国断交,“抱大腿”无望又求援,中方:不惯着

黑翼天使
2026-03-30 13:23:53
美国防部称伊朗战事已耗资250亿美元,美防长赫格塞思自这场战事开始以来首次接受国会质询

美国防部称伊朗战事已耗资250亿美元,美防长赫格塞思自这场战事开始以来首次接受国会质询

每日经济新闻
2026-04-30 10:11:22
田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

田亮做梦也没想到,费心养大的14岁儿子,如今竟“压自己一头”

以茶带书
2026-04-23 16:11:50
“双普”再度通话90分钟,特朗普称“乌克兰军事上已经战败”

“双普”再度通话90分钟,特朗普称“乌克兰军事上已经战败”

山河路口
2026-04-30 13:23:52
网友惊问:2026年的工作是不是更难就业了?你觉得呢?

网友惊问:2026年的工作是不是更难就业了?你觉得呢?

慧翔百科
2026-04-30 08:59:27
陈华任中共成都市锦江区委副书记

陈华任中共成都市锦江区委副书记

环球网资讯
2026-04-30 13:11:33
公开晒结婚证!赵露思:我会一直一直保护你的幸福

公开晒结婚证!赵露思:我会一直一直保护你的幸福

黔乡小姊妹
2026-04-28 08:16:52
济南夏雨荷事件,原来文旅两任领导都是满族,公司名起得也很奇怪

济南夏雨荷事件,原来文旅两任领导都是满族,公司名起得也很奇怪

魔都姐姐杂谈
2026-04-30 13:02:58
北京17岁女学生教室产子,孩子生父身份曝光后,父母崩溃了

北京17岁女学生教室产子,孩子生父身份曝光后,父母崩溃了

清茶浅谈
2025-04-16 13:39:37
万科再无猪场

万科再无猪场

大嘴説
2026-04-30 10:36:05
乘客反映一名铁路工作人员在站台吸烟 12306回应

乘客反映一名铁路工作人员在站台吸烟 12306回应

大象新闻
2026-04-29 18:40:05
浙江一女子有严重洁癖,婚后19年无法同房,夫妻俩渴望拥有孩子,就医后发现妻子卵巢储备功能下降,通过两次人工授精才顺利诞下一健康女宝

浙江一女子有严重洁癖,婚后19年无法同房,夫妻俩渴望拥有孩子,就医后发现妻子卵巢储备功能下降,通过两次人工授精才顺利诞下一健康女宝

台州交通广播
2026-04-29 20:46:57
20年前大S台北街头旧照曝光!那股子意气风发,如今再难寻

20年前大S台北街头旧照曝光!那股子意气风发,如今再难寻

木子娱你同行
2026-04-30 09:00:27
再次上演!跳水世界杯将开赛,陈芋汐突遭变数,全红婵事件重现

再次上演!跳水世界杯将开赛,陈芋汐突遭变数,全红婵事件重现

科学发掘
2026-04-30 11:29:38
朱枫直到牺牲都不知,她视若己出的继女阿菊,其实是个国民党特务

朱枫直到牺牲都不知,她视若己出的继女阿菊,其实是个国民党特务

兴趣知识
2026-04-28 00:56:13
女子婚恋网站结识“未婚”高管后发现被骗,找人多次向对方发短信被行拘5日 双方互诉均被判侵权

女子婚恋网站结识“未婚”高管后发现被骗,找人多次向对方发短信被行拘5日 双方互诉均被判侵权

红星新闻
2026-04-29 17:58:24
2026-04-30 15:04:49
字节漫游指南
字节漫游指南
有态度网友ytd
3036文章数 33关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

教育
游戏
时尚
房产
艺术

教育要闻

成都盐外发出倡议:每个家庭设立“家庭情绪日”

在萝莉岛住五个晚上,我能逃脱爱泼斯坦的魔爪吗?

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

无障碍浏览 进入关怀版