网易首页 > 网易号 > 正文 申请入驻

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

0
分享至

新智元报道

编辑:peter东 乔杨

【新智元导读】当我们在欢呼Deepseek超越ChatGPT时,来自美国的艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,不仅能够媲美GPT-4o,更在多项关键基准测试中超越了DeepSeek v3。

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

论文链接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登场。

Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

各项基准结果比较,最后一列是强化学习优化过的Tülu 3 405B的表现,在多项指标上超越了Deepseek V3

不过在官网提供的体验版上试了试,效果也并不是那么好,对于经典的数Strawberry中有几个r的问题,Tülu 3同样扑街,不过之后需要推理的问题,模型倒是给出了正确的回答思路。

demo传送门:https://playground.allenai.org/

至于其生成出的一些与蛇相关的格言,大多都没有理解传统文化中「蛇」的寓意,显得牛头不对马嘴。

对于想体验本地大模型的读者,Tülu 3 8B和70B已支持ollama下载,可以方便地集成使用,相信405B也会尽快上线ollama平台。

Tülu 3的炼丹术如何

早期的语言模型后训练工作遵循了由InstructGPT等模型开创的标准方法,包括指令微调(instruction-tuning)和偏好微调(preference fine-tuning)。

自此以后,后训练方法的复杂性和精密度不断增加,但大多数成功的后训练模型对其训练数据、代码或训练方法的披露非常有限。在众多后训练研究中,Ai2罕见地选择了完整发布训练数据、方法和研究成果,包括最新的Tülu 3在内。

仓库地址:https://github.com/allenai/open-instruct

Tülu 3的全部构建流程如下图所示,包括主要包括数据、训练和评估三部分。

Tülu 3项目始于确定通用语言模型的关键期望能力,包括知识、推理、数学、编程、指令遵循、日常聊天和安全性。

其中最关键的模型训练,是在预训练语言模型(即Llama 3 Base)的基础上采用四阶段后训练配方,四阶段依次是:

1)精心策划和合成式提示(prompt);其使用的提示词来源如下:

2)在精心挑选的提示词以及相应生成内容的混合数据集上进行监督微调,以针对核心技能优化模型;同时为了保证模型安全性,使用如下带有攻击性提示词的数据,训练Tülu 3让其尽可能不会被攻破。

3)结合离线和在线策略偏好数据以应用偏好微调;

具体来说,就是在之前提示词的基础上,再生成一些不同的新提示词,通过22种开源大模型生成回答,让GPT-4o对各模型给出的回答在有用程度、真实性、诚实性及指令遵循上的表现进行打分,决定是否接受该回答作为训练数据。

4)一种新的基于强化学习(RL)的方法,通过可验证奖励来增强特定技能;

具体来说,Tülu 3使用了一种独创的后训练方法,称为:可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,简称RLVR),流程图如下所示。

这种新的训练方法专门针对具有可验证结果的任务,例如数学问题求解和指令遵循问题。根据训练数据和提示词,明确判断问题是否完成,从而更新策略函数。

有趣的是,训练采用的可验证奖励强化学习框架在更大规模(例如405B)上对数学性能的提升更为显著,这与DeepSeek-R1报告中的发现类似,即相比70B和8B参数规模,405B模型由强化学习带来的提升更为明显。

对此,可能的解释是小型模型从更多样化的数据中受益更多,而大型模型更适合处理需要专门数据的复杂任务。

训练Tülu 3 405B时使用了32个节点(256个GPU)并行运行。对于推理,可使用vLLM部署模型,采用16路张量并行,同时利用剩余的240个GPU进行训练。

鉴于计算成本有限,超参数调整受到限制。训练时遵循了「参数更大的模型采用较低学习率」的原则,这与Llama模型之前的实践一致。

上图展示了在405B的参数量上,MATH数据集的可验证奖励、KL散度和模型响应长度随训练轮次的变化曲线,总体而言,可验证奖励像在8B和70B设置中观察到的那样上升。

图中星号标记对应最终检查点的位置。论文表示,团队本打算训练更长时间,但由于计算资源限制而被迫停止。由于在训练过程中没有观察到数学性能饱和,进一步训练可能会进一步提升性能。

总体来看,Tülu 3采用了全新的后训练框架,包括完全开源的数据(Tülu 3 Data)、评估(Tülu 3 Eval)、训练代码(Tülu 3 Code)以及开发配方(Tülu 3 Recipe),并在性能上超越了同尺度的开源及闭源模型。

Tülu 3标志着开放后训练研究的一个新的里程碑。凭借Ai2披露的信息和研究成果,其他人可以在开放的基础模型上继续构建,并针对多样化任务进行微调以实现高性能,这为在多目标和多阶段训练框架内推进后训练研究铺平了道路,其提出的训练方法也值得开发者借鉴。

参考资料:

https://arxiv.org/pdf/2411.15124

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子入职10年公司赠40克重金牌,当时每克270元,8年后涨了3倍价值4万多元

女子入职10年公司赠40克重金牌,当时每克270元,8年后涨了3倍价值4万多元

极目新闻
2026-01-26 21:29:10
女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

卡西莫多的故事
2025-10-30 11:33:46
结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

琨玉秋霜
2026-01-27 14:10:08
高市早苗:若执政党阵营在众议院选举中未过半数,将即刻辞职

高市早苗:若执政党阵营在众议院选举中未过半数,将即刻辞职

界面新闻
2026-01-26 14:51:37
好家伙!行走的大G!

好家伙!行走的大G!

碧波万览
2026-01-28 00:23:35
陕西一医院,10个新生儿9个绝症,真相揭开后,产科主任被判死刑

陕西一医院,10个新生儿9个绝症,真相揭开后,产科主任被判死刑

谈史论天地
2026-01-27 13:20:03
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
官方:2027沙特阿拉伯亚洲杯会徽正式发布;灵感来自沙特传统图案

官方:2027沙特阿拉伯亚洲杯会徽正式发布;灵感来自沙特传统图案

懂球帝
2026-01-27 18:42:15
央国企“近亲繁殖”严查升级,扩大到四类关系!

央国企“近亲繁殖”严查升级,扩大到四类关系!

环球通信
2026-01-27 21:36:41
用“假人”冒充押运员,一危化品运输车辆被浙江海宁警方查获

用“假人”冒充押运员,一危化品运输车辆被浙江海宁警方查获

澎湃新闻
2026-01-27 15:17:06
拾荒父亲供儿子上大学,儿子婚礼叫父亲上台,岳父听到竟直接跪下

拾荒父亲供儿子上大学,儿子婚礼叫父亲上台,岳父听到竟直接跪下

今天说故事
2024-09-24 18:07:26
曼联卡塞米罗替代者候选曝光!卡里克仍想冬窗引援,一人去留关键

曼联卡塞米罗替代者候选曝光!卡里克仍想冬窗引援,一人去留关键

罗米的曼联博客
2026-01-27 07:21:20
朱棣在榆木川离世,榆木川位于现在的哪里?说出来你可能不信

朱棣在榆木川离世,榆木川位于现在的哪里?说出来你可能不信

王嚾晓
2026-01-27 20:19:43
免签后外国人“扎堆”来中国看病!这波“反向就医”,热闹背后看什么?

免签后外国人“扎堆”来中国看病!这波“反向就医”,热闹背后看什么?

文汇报
2026-01-26 22:50:18
越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

磊子讲史
2026-01-21 12:01:14
连克曼城、阿森纳也没用!卡里克被曝无缘红魔帅位,或转投热刺

连克曼城、阿森纳也没用!卡里克被曝无缘红魔帅位,或转投热刺

夜白侃球
2026-01-27 20:10:16
糖尿病人有三坎,熬过就长寿:三坎是指哪三年?55岁后请重视

糖尿病人有三坎,熬过就长寿:三坎是指哪三年?55岁后请重视

健康之光
2026-01-26 09:08:56
南通当年力压济南批地铁,如今南通地铁的发展达到预期了吗?

南通当年力压济南批地铁,如今南通地铁的发展达到预期了吗?

晨晨星
2026-01-27 11:12:34
欧洲正在进行人口“大替换”吗?

欧洲正在进行人口“大替换”吗?

南文视界
2026-01-26 22:05:25
李平康:贺一然加盟泰山基本差不多了,玄智健基本不可能了

李平康:贺一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝
2026-01-27 22:34:52
2026-01-28 06:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14424文章数 66544关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
健康
游戏
本地
公开课

教育要闻

对话陈妤颉:闪闪发光的赛道,追逐梦想

耳石脱落为何让人天旋地转+恶心?

LPL春季赛:决绝让一追二,AL三局击溃IG,大家的排名都不变

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版