网易首页 > 网易号 > 正文 申请入驻

Ai2推出Tülu3-405B模型,声称性能优于DeepSeek-V3

0
分享至

本周,Allen人工智能研究所(Ai2)推出了Tülu3-405B,这是一个拥有4050亿参数的大型开源人工智能模型,声称其性能优于DeepSeek-V3,并在关键基准测试中与GPT-4o相匹配,特别是数学推理和安全性。

本次发布展示了Ai2的新颖训练方法,即具有可验证奖励的强化学习(RLVR)。Tülu3-405B基于Ai2的Tülu3训练方法,该方法于2024年11月首次推出。该模型使用精心策划的数据、监督微调、直接偏好优化(DPO)和RLVR的组合对Meta的Llama-405B进行微调。

RLVR尤其值得注意,因为它增强了存在可验证结果的技能,如数学问题解决和教学跟踪。根据Ai2的研究结果,与Tülu3-70B和Tülu3-8B等较小的模型相比,RLVR在405B参数下的扩展更有效。扩大规模大大提高了Tülu3-405B的数学技能,增加了这样一种观点的权重,即当输入专门的数据而不是一点点的所有数据时,更大的模型会做得更好,这是一个广泛的数据集。

Ai2的内部评估Tülu3-405B的表现一直优于DeepSeek-V3,特别是在安全基准和数学推理方面。该模型还与OpenAI的GPT-4o竞争。Tülu3-405B也超越了之前的开放式重训练后模型,包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

训练一个4050亿参数的模型不是一项小任务。Tülu3-405B需要32个节点上的256个GPU,使用优化的推理引擎vLLM,具有16路张量并行性。根据一篇博客文章,Ai2的工程师面临着几个挑战,包括这些强烈的计算要求:“训练Tülu 3 405B需要32个节点(256个GPU)并行运行。为了进行推理,我们使用具有16路张量并行性的vLLM部署了模型,同时利用剩余的240个GPU进行训练。虽然我们的大多数代码库扩展良好,但我们偶尔会遇到NCCL超时和同步问题,需要细致的监控和干预。”

还有超参数调整的挑战:“考虑到计算成本,超参数调整是有限的。我们遵循了“较大模型的学习率较低”的原则,这与Llama模型的先前实践是一致的。”Ai2团队说。

借助Tülu3-405B,Ai2不仅仅是发布了另一个开源AI模型。这是关于模型训练的声明。通过扩大其RLVR方法,Ai2不仅建立了一个可以对抗GPT-4o和DeepSeek-V3等顶级人工智能的模型,而且还提出了一个重要的想法:当以正确的方式训练时,更大的模型可以变得更好。训练Tülu3-405B不仅在问题上投入了更多的数据,还使用了专业、高质量的数据和周到的训练技术来改进它。

但除了技术上的胜利,Tülu3-405B还强调了人工智能的一个更大转变:保持创新开放和可访问性的斗争。虽然最大的人工智能模型通常被锁定在企业付费墙后面,但Ai2押注于一个强大的人工智能仍然可供研究人员、开发人员和任何有足够好奇心进行实验的人使用的未来。

为此,Ai2已将Tülu3-405B免费提供给研究和实验,并将其托管在Google Cloud(不久后将推出Vertex)上,并通过Ai2 Playground提供演示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央未定调2026年养老金上涨,但两个核心数据暗含涨幅:或超2%

中央未定调2026年养老金上涨,但两个核心数据暗含涨幅:或超2%

社保精算师
2026-04-21 13:48:09
李小萌没怀三胎,王雷不是富二代,所谓豪宅是编的

李小萌没怀三胎,王雷不是富二代,所谓豪宅是编的

手工制作阿歼
2026-04-20 18:35:13
法新社报道:极氪8X成首个挑战BBA高性能SUV的中国旗舰

法新社报道:极氪8X成首个挑战BBA高性能SUV的中国旗舰

太平洋汽车
2026-04-21 14:40:49
李荣浩直播户外钓鱼,10万+网友目睹他的手机落入水中

李荣浩直播户外钓鱼,10万+网友目睹他的手机落入水中

红星新闻
2026-04-21 19:40:41
民国最牛地主,家里出2大将1上将,2名长工也成司令和国军中将

民国最牛地主,家里出2大将1上将,2名长工也成司令和国军中将

文人相爱A
2026-04-18 15:20:36
土皇帝?许家印18大喜好曝光:只喝恒大冰泉+吃进口水果 最爱辽参

土皇帝?许家印18大喜好曝光:只喝恒大冰泉+吃进口水果 最爱辽参

念洲
2026-04-20 11:34:37
中共福建省委组织部关于王丰、谷国海同志任前公示的公告

中共福建省委组织部关于王丰、谷国海同志任前公示的公告

大闽门户
2026-04-21 16:23:56
谁给日本在中国建学校开了绿灯?30年秘辛,一次讲透!

谁给日本在中国建学校开了绿灯?30年秘辛,一次讲透!

南宗历史
2026-04-21 08:41:51
16岁巴西天才横空出世!全欧豪门疯抢,曼联率先砸高价全力拿下

16岁巴西天才横空出世!全欧豪门疯抢,曼联率先砸高价全力拿下

夜白侃球
2026-04-21 11:33:34
美方敦促中国停止向俄罗斯提供军民两用物项等,中方驳斥:长期向战场提供武器、试图延长战争的是美国不是中国,再次敦促美方停止甩锅推责

美方敦促中国停止向俄罗斯提供军民两用物项等,中方驳斥:长期向战场提供武器、试图延长战争的是美国不是中国,再次敦促美方停止甩锅推责

极目新闻
2026-04-21 08:35:27
宋仲基夫妇看音乐会,英国妻子凯蒂素颜出镜,颜值气质不输宋慧乔

宋仲基夫妇看音乐会,英国妻子凯蒂素颜出镜,颜值气质不输宋慧乔

娱乐团长
2026-04-21 14:20:32
追觅造车已进入实质性推进阶段,第二款旗舰SUV对标理想L9、问界M9 | 独家

追觅造车已进入实质性推进阶段,第二款旗舰SUV对标理想L9、问界M9 | 独家

钛媒体APP
2026-04-20 10:40:57
研究表明:性生活越频繁,射精和勃起问题越少!

研究表明:性生活越频繁,射精和勃起问题越少!

黯泉
2026-04-05 20:40:12
唐鹤德眼疾康复后露脸,携密友及男童外出,与孩子温馨互动似爷孙

唐鹤德眼疾康复后露脸,携密友及男童外出,与孩子温馨互动似爷孙

八斗小先生
2026-04-21 12:18:27
马筱梅怒与小杨阿姨切割,下通牒后,阿姨 3 句话慌了神

马筱梅怒与小杨阿姨切割,下通牒后,阿姨 3 句话慌了神

橙星文娱
2026-04-20 16:59:16
沉默1天,中方准时发话,“高市下岗”传遍日本,石破茂判断没错

沉默1天,中方准时发话,“高市下岗”传遍日本,石破茂判断没错

云上乌托邦
2026-04-21 19:24:08
防死了对手的头号得分手!骑士先发小前锋的场上作用非常明显?

防死了对手的头号得分手!骑士先发小前锋的场上作用非常明显?

稻谷与小麦
2026-04-21 21:58:31
和谈前夕美军突然开火,誓死报复美军!伊朗军方凌晨发布重大信息

和谈前夕美军突然开火,誓死报复美军!伊朗军方凌晨发布重大信息

爱吃醋的猫咪
2026-04-21 21:56:13
间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

游古史
2026-04-20 11:47:39
问界M9把"蓝灯"玩成信号灯,智驾状态一眼看穿

问界M9把"蓝灯"玩成信号灯,智驾状态一眼看穿

Ping值焦虑
2026-04-13 16:38:59
2026-04-21 22:48:49
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1714文章数 511关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

商家网售"宣威火腿"被诉侵权:我就是宣威人为何不能卖

头条要闻

商家网售"宣威火腿"被诉侵权:我就是宣威人为何不能卖

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

亲子
旅游
本地
房产
公开课

亲子要闻

孤独力有多重要?聪明的父母懂得牢牢把握,影响孩子的人生高度

旅游要闻

2026上海国际花卉节普陀赏花指南:TOP中央公园露营,半马苏河公园慢跑

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

房产要闻

年薪40-50万!海南地产圈还在猛招人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版