网易首页 > 网易号 > 正文 申请入驻

蚂蚁百灵开卷模型性价比!长文本推理只要1/10成本,6.1B激活撬动40B性能

0
分享至


智东西
作者 江宇
编辑 漠影

智东西9月26日报道,蚂蚁百灵团队近日正式开源两款全新混合线性推理模型——Ring-mini-linear-2.0与Ring-flash-linear-2.0。相比前代,这一轮升级在延续高稀疏MoE结构的基础上,引入了混合线性注意力(Linear Attention)机制,专为长文本、低成本推理等场景提效而设计。

眼下,大模型开始真正走进应用场景,推理成本却成了横在企业面前的一道坎。一边是用户希望更快、更久地交互,另一边却是又贵又慢的模型部署现实。在不牺牲效果的前提下降本提效,已经成了各家模型团队绕不开的问题。

据蚂蚁团队的实测数据,在保持SOTA精度的前提下,本轮开源的Ring-linear系列模型最大上下文长度512k,将推理成本压缩至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并发解码任务中吞吐量可达Qwen3-8B的12倍、Qwen3-32B的10倍以上。

此外,蚂蚁团队还引入了精细化的推理优化融合算子RL训练对齐机制等系统级工具,直指当前推理成本与训练稳定性的关键瓶颈。

除了推理效率的显著提升,Ring-linear系列模型在多项标准评测中的表现也不容忽视,尤其在数学推理、结构代码生成、通用语言理解与写作任务中,展现出与主流大模型相比具有竞争力的准确率。实测结果包括:

Ring-mini-linear-2.0:


Ring-flash-linear-2.0:



目前,这套模型现已同步上线多平台,开源地址如下:

魔搭社区:https://modelscope.cn/models/inclusionAl/Ring-flash-linear-2.0/

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/hybrid_linear

Hugging Face:https://huggingface.co/inclusionAl/Ring-flash-linear-2.0

一、混合线性架构重构Attention计算图,推理成本再砍一半

此次开源的Ring-linear系列模型,构建于蚂蚁自研的Ring-mini-2.0与Ring-flash-2.0 MoE基座之上,最大特点是将主干Attention模块替换为自研线性Attention融合模块,辅以少量标准Attention,形成高效混合注意力结构。

以Ring-flash-linear为例,其结构中87.5%的层采用线性Attention(28层线性+4层标准),结合旋转位置编码(RoPE)分组RMSNorm等训练优化策略。这种高占比的线性架构,使得整体计算复杂度近似线性,在长上下文条件下,显著降低训练和推理的计算成本。

同时,该模型保持了1/32专家激活率的超稀疏MoE结构,通过MTP(Mixture Token Parallel)与全局负载均衡设计,实现“以6.1B参数模拟40B dense模型”的效果。在保持性能的前提下,大幅降低激活参数与计算需求。


▲Ring-linear-2.0系列模型架构示意图,主干结构采用线性Attention与稀疏MoE混合设计,最大支持512K上下文长度,并引入MTP多token预测训练目标。

在真实业务场景中,长文本处理、多轮交互频繁,大模型推理速度慢、成本高成为了其上线部署应用的最大阻碍。正因如此,如何在不牺牲效果的前提下降本提效,成了蚂蚁团队重点探索的方向,而线性Attention与稀疏MoE结合,正是他们给出的答案之一。

二、推理吞吐大幅领先,Prefill、Decode双线提速

当大模型真正部署起来之后,推理吞吐才是决定体验和成本的“临门一脚”。尤其在大模型进入多轮交互、长上下文等复杂场景后,单纯追求更大的参数规模,未必能换来更好的效果,反而可能因吞吐不足拖慢响应、推高成本。因此,Ring-linear系列在推理性能上的表现,成为其能否落地的重要指标。

在推理性能方面,蚂蚁团队提供了详尽实测结果,Ring-linear系列模型在长上下文与高并发生成场景中具备明显优势:


▲Ring-mini-linear-2.0 Prefill吞吐(batch size = 1)


▲Ring-mini-linear-2.0 Decode吞吐(batch size = 64)

Ring-mini-linear-2.0在Prefill阶段(上下文256k+)吞吐量为Qwen3-8B的12倍以上;在Decode阶段,生成长度32k+时吞吐量同样为Qwen3-8B的12倍以上。


▲Ring-flash-linear-2.0 Prefill吞吐(batch size = 1)


▲Ring-flash-linear-2.0 Decode吞吐 (batch size = 64)

Ring-flash-linear-2.0则在对比Qwen3-32B时展现出突出优势——上下文32k以上,Prefill阶段吞吐量近5倍;生成长度64k时,Decode阶段逼近10倍吞吐优势。这些优化均得益于蚂蚁团队对推理框架(SGLang/vLLM v1)的深度适配与线性算子的定制化加速。

测试显示,优化后的triton kernel最高加速比可达2.73倍(prefill单样本任务),在典型decode场景中也能够达到2.57倍,并支持批量prefill与混合推理模式,有效应对真实部署场景中的多并发挑战。


▲Ring-linear系列在线性Attention算子推理任务中的加速表现

这些优化奠定了Ring-linear系列模型在推理层面的基础。而要将模型真正推进RL训练、提升长期表现,还得解决另一个关键问题:训推一致性。

三、训推一致性修复RL瓶颈,支持长输出下的直接采样

强化学习(RL)阶段的稳定性问题,常常来源于训练-推理(训推)实现不一致。尤其在MoE模型中,组件如RMSNorm、RoPE、Attention、KVCache、softmax等在不同框架间存在精度/顺序/后处理差异,会严重干扰on-policy策略更新,导致reward波动大、训练上限低。

为此,蚂蚁团队从框架底层修正训推逻辑差异,提出三项改进:

1、算子级一致性:训练与推理采用相同模块实现;

2、精度统一:重要模块如KVCache与lm_head统一采用fp32;

3、确定性保障:MOE专家选择、token加和顺序引入稳定排序与固定顺序。

实测显示,修复关键模块后RL reward显著提升,并首次实现RL阶段直接使用rollout probs而非training probs,不仅节省重前向计算时间,还提升了训练效率与最终回报。


▲对比使用rollout probs与 raining probs 进行PPO clip训练的效果。左图为训练奖励(Reward)变化趋势,右图为训推概率差异绝对值大于0.8的token占比,对齐后训推差异显著降低。

这一系列修复,为MoE模型走向强化学习阶段扫清了落地障碍,也让长输出任务具备了稳定训练和高质量采样的基础能力。简单来说,就是模型在训练时学会的“策略”,能够在推理时原样执行出来。一旦训推一致,模型就真的学会了“决策”。

四、实测:结构代码生成清晰完整,动画逻辑具备通用性

蚂蚁团队也围绕Ring-linear系列模型进行了多组结构化代码生成的实测,任务涵盖图形动画控制、规则逻辑实现与游戏基础玩法复现。Ring-linear系列模型均可根据自然语言指令输出结构清晰、可直接运行的Python代码,展示出良好的代码理解与生成能力。

实测任务包括:

1、数独游戏web代码生成

指令:“编写一个数独游戏的web应用”


模型生成代码能够快速实现一个bug free的数独游戏应用,包括正确数字初始化、难易程度选择、数字填写是否正确提示等核心功能。

2、坦克大战

指令:“Use Python to create a simplified tank battle game. Users use the up, down, left, and right keys on the keyboard to control the free movement of a tank. The spacebar fires bullets to defeat enemy tanks in the game scene. The scene contains five freely moving enemy tanks, which fire bull

ets in the direction of the current tank’s movement. Each time an enemy tank is defeated, one point is awarded, and a new enemy tank is randomly generated. The game ends when the user’s tank is hit by an enemy tank.”


输出Python代码覆盖坦克位置的初始化、方向自动控制、积分更新等完整逻辑模块,能够自主指挥坦克运动和射击。

3、股票系统应用

指令:“请生成一个模拟股票交易软件的页面,数据可以是随机生成的,页面包含了五部分部分:

1. 日内的秒级数据,这部分需要一秒更新一次,按照线的方式进行展示。
2. 日k线,这部分可以展示最近60天的ohlc的数据,使用蜡烛图进行展示,涨了的是红色,跌了的是绿色。
3. 实时的成交量,也是一秒更新一次,现实数字即可。
4. 日线的成交量数据,用柱状图表示。
5. 公司的介绍,可以随机生成一些。

需要注意的点:
1. 请使用canvas绘制各种曲线和蜡烛图, 但是需要注意绘制图像的清晰度,需要为高清设备进行准备;
2. 需要可以根据窗口的大小自行调整canvas窗口的大小;
3. 使用原生的js和html5属性不要使用额外的库;
4. 请保证随机生成的价格数据都是可以使用的。”


模型可生成完整的模拟股票交易软件,涵盖交易价格、数量展示、趋势分析等核心功能。同时生成页面展示精美,有较强的指令遵循能力。

整体来看,Ring-linear系列模型在结构化代码生成任务中的表现稳定,具备良好的语义解析与逻辑组织能力,能够覆盖多类Python、Web编程指令,适用于可视化交互、小型逻辑游戏等场景的快速原型生成。

结语:混合线性架构成大模型新风口,百灵团队再打开一扇门

随着推理大模型越来越卷“长推理”“低成本”,Test Time Scaling正在变成新一轮技术追求的焦点。

蚂蚁百灵团队这轮开源的Ring-linear系列模型,结构上“做减法”,用混合线性机制精简计算路径;推理上“做乘法”,依靠稀疏MoE和系统级加速,把效率拉满。不只是跑得快、用得省,更在RL训练这块最难啃的骨头上,给出了全新解法。

随着更多推理场景开始关注高并发生成与超长上下文,这一轮开源有望推动混合线性架构成为下一阶段主流落地的关键方向之一。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年的蒙古国已经乱到没边了,首都乌兰巴托的街头全是抗议的人群

今年的蒙古国已经乱到没边了,首都乌兰巴托的街头全是抗议的人群

南权先生
2025-11-05 16:42:59
周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

好贤观史记
2025-11-06 15:00:23
副院长出轨眼科主任后续:院方回应,纪检部门介入,两人均已停诊

副院长出轨眼科主任后续:院方回应,纪检部门介入,两人均已停诊

千言娱乐记
2025-11-06 16:41:49
单价近35万元/平、总价1.99亿元 瑞慈医疗在上海入手一套豪宅

单价近35万元/平、总价1.99亿元 瑞慈医疗在上海入手一套豪宅

财联社
2025-11-06 11:54:06
义乌10岁搞钱小孩哥突然爆火全网,我才顿悟一个家庭最大的财富是什么!

义乌10岁搞钱小孩哥突然爆火全网,我才顿悟一个家庭最大的财富是什么!

脆皮先生
2025-11-06 20:29:25
县城险象环生,你千万不要被表面的平静给蒙蔽了。

县城险象环生,你千万不要被表面的平静给蒙蔽了。

流苏晚晴
2025-10-31 20:55:43
小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

AppSo
2025-11-06 17:03:00
又一知名演员被骂到抑郁!于和伟仗义出面,求观众给条活路

又一知名演员被骂到抑郁!于和伟仗义出面,求观众给条活路

木子爱娱乐大号
2025-11-06 15:35:28
红军城覆灭进入倒计时,乌军发起空降作战,瞬间上演送人头大戏

红军城覆灭进入倒计时,乌军发起空降作战,瞬间上演送人头大戏

子桑说
2025-11-06 19:50:11
那年,我受命去调查于幼军

那年,我受命去调查于幼军

霹雳炮
2025-11-02 19:38:51
CCTV5直播!王楚钦男单、男团大战樊振东!王曼昱遭遇陈梦!全运会签表出炉!

CCTV5直播!王楚钦男单、男团大战樊振东!王曼昱遭遇陈梦!全运会签表出炉!

好乒乓
2025-11-06 12:56:13
神二十3名航天员、4鼠乘组将夜间返回地球,为何不延期白天回家?

神二十3名航天员、4鼠乘组将夜间返回地球,为何不延期白天回家?

环球科学猫
2025-11-04 11:29:07
成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

科学发掘
2025-10-31 14:06:52
女儿百日宴公公给8.8块,半年后公公70大寿,我送上了“寿礼”

女儿百日宴公公给8.8块,半年后公公70大寿,我送上了“寿礼”

如烟若梦
2025-10-20 19:00:09
阿富汗地震损伤惨重,全球集体沉默,无人支援?中国紧急发声!

阿富汗地震损伤惨重,全球集体沉默,无人支援?中国紧急发声!

历史有些冷
2025-11-06 19:55:03
陈佩斯三兄妹罕见同框!75岁大哥老得认不出,妹妹年轻富态有活力

陈佩斯三兄妹罕见同框!75岁大哥老得认不出,妹妹年轻富态有活力

小徐讲八卦
2025-11-06 05:50:36
普京下死命令,他明白:中俄关系再好,他也必须为俄罗斯未来考虑

普京下死命令,他明白:中俄关系再好,他也必须为俄罗斯未来考虑

凉羽亭
2025-11-05 18:31:40
副院长和眼科医生为爱鼓掌17分钟,背后还有更大的瓜,官方回应

副院长和眼科医生为爱鼓掌17分钟,背后还有更大的瓜,官方回应

温柔看世界
2025-11-06 17:09:27
孙东旭已从东方甄选直播间消失201天,其社交账号简介仍是“东方甄选的孙美丽”,有粉丝曾于4月飞拉萨见他最后一场直播

孙东旭已从东方甄选直播间消失201天,其社交账号简介仍是“东方甄选的孙美丽”,有粉丝曾于4月飞拉萨见他最后一场直播

极目新闻
2025-11-06 18:13:22
原来明星私底下聚会也是素颜出席呀

原来明星私底下聚会也是素颜出席呀

动物奇奇怪怪
2025-11-06 12:14:15
2025-11-06 21:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10707文章数 116893关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

重庆一套百平米"凶宅"191万上架法拍 欠缴物业费超3万

头条要闻

重庆一套百平米"凶宅"191万上架法拍 欠缴物业费超3万

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

家居
本地
手机
亲子
公开课

家居要闻

别样府院 畅享诗意生活

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

荣耀500 Pro曝光:骁龙8至尊版芯片+8000mAh电池+2亿像素主摄

亲子要闻

孩子发烧真的会烧坏脑子吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版