网易首页 > 网易号 > 正文 申请入驻

蚂蚁与清华开源强化学习框架AReaL-boba,数学推理表现出色

0
分享至

3月31日,蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的7B推理模型,并以极低成本实现了32B推理大模型的高效复现。AReaL-boba的框架代码、训练数据、模型权重及技术文档已在inclusionAI社区全部开源,开发者可直接复现SOTA推理模型。

AReaL(全称Ant Reasoning RL)是国内首个完整开源的强化学习(Reinforcement learning,RL)项目。今年2月,AReaL发布了第一个开源版本AReaLv0.1,首次发布包含了基于AReaL系统的可复现实验,涵盖1.5B和7B参数的大推理模型,并在多种计算预算下进行了验证。一个月后,AReaLv0.2版(即AReaL-boba)便在上个版本上完成了重要更新,再次证明了RL Scaling的价值,加速了推理模型的能力发展。

AReaL-boba通过优化训练流程,显著提升了推理模型训练速度。相比上一代框架,其在1.5B、7B、32B模型上的训练速度分别提升35%、60%、73%。该框架支持大规模分布式训练,例如使用128张H800 GPU可在1天内完成1.5B模型训练,256张H800 GPU可在2天内完成7B模型训练。此外,AReaL-boba集成了被顶尖大模型Grok2采用的高性能推理框架SGLang,进一步提升了推理效率。

AReaL-boba的7B模型基于Qwen-R1-Distill-7B进行强化学习训练,在AIME 2024和2025测试中分别取得61.9分和48.3分,刷新了开源社区记录。通过数据蒸馏技术,AReaL-boba低成本高效复现了接近QwQ-32B模型的效果(AIME 2024得分78.8分,接近QwQ-32B的78.9分)。

AReaL-boba的推出标志着强化学习训练框架在效率、性能和可扩展性上的突破,也为开发者提供了高效、低成本的解决方案,加速了推理模型的发展。

据了解,蚂蚁和清华组成的AReal研发团队计划持续开源训练代码、数据集及流程,并将优化异步训练、吞吐性能,升级数据集和算法,进一步提升框架能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
38岁梅西创造历史仅1天,恶心的一幕发生,阿根廷总统怒斥:荒唐

38岁梅西创造历史仅1天,恶心的一幕发生,阿根廷总统怒斥:荒唐

离离言几许
2026-06-20 20:34:22
美联储,重磅来袭!高盛突然宣布:下调!

美联储,重磅来袭!高盛突然宣布:下调!

证券时报
2026-06-21 16:22:31
李若彤参观驻港部队,换上军装端起枪,这身板绝了

李若彤参观驻港部队,换上军装端起枪,这身板绝了

落雪听梅a
2026-06-21 14:21:41
洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

谁将主宰未来
2026-06-21 09:57:43
中国高铁上演“二桃杀三士”,后被写入美国斯坦福大学案例

中国高铁上演“二桃杀三士”,后被写入美国斯坦福大学案例

神奇的锤子
2025-02-20 00:00:46
俄国内普遍呼吁对乌克兰动真格!升级为全面战争!普京在担心什么

俄国内普遍呼吁对乌克兰动真格!升级为全面战争!普京在担心什么

流年顛簸
2026-06-22 00:13:10
A股明牌!老登股要被公开处刑了

A股明牌!老登股要被公开处刑了

说股鲸
2026-06-21 21:30:05
19岁李嫣跟李亚鹏聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

19岁李嫣跟李亚鹏聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

扒星人
2026-06-20 10:12:31
很多人已经在崩k的边缘了!

很多人已经在崩k的边缘了!

黯泉
2026-06-21 17:42:51
英国又为乌克兰研发出一款大杀器

英国又为乌克兰研发出一款大杀器

史政先锋
2026-06-21 23:18:32
德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

我爱英超
2026-06-21 07:47:47
美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

商业财经风向
2026-06-18 10:39:45
一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

吴猖旅行ing
2026-06-22 00:49:35
A股:无需等待周一开盘了,市场已清晰,明天行情已可预见!

A股:无需等待周一开盘了,市场已清晰,明天行情已可预见!

财经大拿
2026-06-21 11:38:19
随着日本4-0突尼斯,产生三大不可思议,亚洲第一撼动世界杯格局

随着日本4-0突尼斯,产生三大不可思议,亚洲第一撼动世界杯格局

侃球熊弟
2026-06-21 13:59:29
内塔尼亚胡亲口承认:中国二战给予特殊援助,震撼真相大揭秘!

内塔尼亚胡亲口承认:中国二战给予特殊援助,震撼真相大揭秘!

云霄纪史观
2026-06-19 18:49:57
钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

好贤观史记
2026-06-21 12:52:28
后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

刘耘博士
2026-06-19 08:42:41
8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

叹知
2026-05-03 19:47:25
阿瑙托维奇:有点生气首轮没让我首发,梅西是GOAT无需多言

阿瑙托维奇:有点生气首轮没让我首发,梅西是GOAT无需多言

宝哥精彩赛事
2026-06-21 08:30:23
2026-06-22 01:27:00
数智前线 incentive-icons
数智前线
关注数字化和智能化
1369文章数 619关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

家居
艺术
时尚
房产
公开课

家居要闻

绿意盎然 自然之境

艺术要闻

310米!欧盟第一高楼,坐落于波兰

邮报盘点哈兰德奢侈品收藏:33万镑爱马仕包、28万豪华腕表

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版