网易首页 > 网易号 > 正文 申请入驻

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

0
分享至

新智元报道

编辑:peter东 乔杨

【新智元导读】当我们在欢呼Deepseek超越ChatGPT时,来自美国的艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,不仅能够媲美GPT-4o,更在多项关键基准测试中超越了DeepSeek v3。

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

论文链接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登场。

Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

各项基准结果比较,最后一列是强化学习优化过的Tülu 3 405B的表现,在多项指标上超越了Deepseek V3

不过在官网提供的体验版上试了试,效果也并不是那么好,对于经典的数Strawberry中有几个r的问题,Tülu 3同样扑街,不过之后需要推理的问题,模型倒是给出了正确的回答思路。

demo传送门:https://playground.allenai.org/

至于其生成出的一些与蛇相关的格言,大多都没有理解传统文化中「蛇」的寓意,显得牛头不对马嘴。

对于想体验本地大模型的读者,Tülu 3 8B和70B已支持ollama下载,可以方便地集成使用,相信405B也会尽快上线ollama平台。

Tülu 3的炼丹术如何

早期的语言模型后训练工作遵循了由InstructGPT等模型开创的标准方法,包括指令微调(instruction-tuning)和偏好微调(preference fine-tuning)。

自此以后,后训练方法的复杂性和精密度不断增加,但大多数成功的后训练模型对其训练数据、代码或训练方法的披露非常有限。在众多后训练研究中,Ai2罕见地选择了完整发布训练数据、方法和研究成果,包括最新的Tülu 3在内。

仓库地址:https://github.com/allenai/open-instruct

Tülu 3的全部构建流程如下图所示,包括主要包括数据、训练和评估三部分。

Tülu 3项目始于确定通用语言模型的关键期望能力,包括知识、推理、数学、编程、指令遵循、日常聊天和安全性。

其中最关键的模型训练,是在预训练语言模型(即Llama 3 Base)的基础上采用四阶段后训练配方,四阶段依次是:

1)精心策划和合成式提示(prompt);其使用的提示词来源如下:

2)在精心挑选的提示词以及相应生成内容的混合数据集上进行监督微调,以针对核心技能优化模型;同时为了保证模型安全性,使用如下带有攻击性提示词的数据,训练Tülu 3让其尽可能不会被攻破。

3)结合离线和在线策略偏好数据以应用偏好微调;

具体来说,就是在之前提示词的基础上,再生成一些不同的新提示词,通过22种开源大模型生成回答,让GPT-4o对各模型给出的回答在有用程度、真实性、诚实性及指令遵循上的表现进行打分,决定是否接受该回答作为训练数据。

4)一种新的基于强化学习(RL)的方法,通过可验证奖励来增强特定技能;

具体来说,Tülu 3使用了一种独创的后训练方法,称为:可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,简称RLVR),流程图如下所示。

这种新的训练方法专门针对具有可验证结果的任务,例如数学问题求解和指令遵循问题。根据训练数据和提示词,明确判断问题是否完成,从而更新策略函数。

有趣的是,训练采用的可验证奖励强化学习框架在更大规模(例如405B)上对数学性能的提升更为显著,这与DeepSeek-R1报告中的发现类似,即相比70B和8B参数规模,405B模型由强化学习带来的提升更为明显。

对此,可能的解释是小型模型从更多样化的数据中受益更多,而大型模型更适合处理需要专门数据的复杂任务。

训练Tülu 3 405B时使用了32个节点(256个GPU)并行运行。对于推理,可使用vLLM部署模型,采用16路张量并行,同时利用剩余的240个GPU进行训练。

鉴于计算成本有限,超参数调整受到限制。训练时遵循了「参数更大的模型采用较低学习率」的原则,这与Llama模型之前的实践一致。

上图展示了在405B的参数量上,MATH数据集的可验证奖励、KL散度和模型响应长度随训练轮次的变化曲线,总体而言,可验证奖励像在8B和70B设置中观察到的那样上升。

图中星号标记对应最终检查点的位置。论文表示,团队本打算训练更长时间,但由于计算资源限制而被迫停止。由于在训练过程中没有观察到数学性能饱和,进一步训练可能会进一步提升性能。

总体来看,Tülu 3采用了全新的后训练框架,包括完全开源的数据(Tülu 3 Data)、评估(Tülu 3 Eval)、训练代码(Tülu 3 Code)以及开发配方(Tülu 3 Recipe),并在性能上超越了同尺度的开源及闭源模型。

Tülu 3标志着开放后训练研究的一个新的里程碑。凭借Ai2披露的信息和研究成果,其他人可以在开放的基础模型上继续构建,并针对多样化任务进行微调以实现高性能,这为在多目标和多阶段训练框架内推进后训练研究铺平了道路,其提出的训练方法也值得开发者借鉴。

参考资料:

https://arxiv.org/pdf/2411.15124

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

天天话事
2026-03-26 09:30:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

火山詩话
2026-03-25 13:41:56
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
2026-03-26 16:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
家居
游戏
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版