网易首页 > 网易号 > 正文 申请入驻

Ai2推出Tülu3-405B模型,声称性能优于DeepSeek-V3

0
分享至

本周,Allen人工智能研究所(Ai2)推出了Tülu3-405B,这是一个拥有4050亿参数的大型开源人工智能模型,声称其性能优于DeepSeek-V3,并在关键基准测试中与GPT-4o相匹配,特别是数学推理和安全性。

本次发布展示了Ai2的新颖训练方法,即具有可验证奖励的强化学习(RLVR)。Tülu3-405B基于Ai2的Tülu3训练方法,该方法于2024年11月首次推出。该模型使用精心策划的数据、监督微调、直接偏好优化(DPO)和RLVR的组合对Meta的Llama-405B进行微调。

RLVR尤其值得注意,因为它增强了存在可验证结果的技能,如数学问题解决和教学跟踪。根据Ai2的研究结果,与Tülu3-70B和Tülu3-8B等较小的模型相比,RLVR在405B参数下的扩展更有效。扩大规模大大提高了Tülu3-405B的数学技能,增加了这样一种观点的权重,即当输入专门的数据而不是一点点的所有数据时,更大的模型会做得更好,这是一个广泛的数据集。

Ai2的内部评估Tülu3-405B的表现一直优于DeepSeek-V3,特别是在安全基准和数学推理方面。该模型还与OpenAI的GPT-4o竞争。Tülu3-405B也超越了之前的开放式重训练后模型,包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

训练一个4050亿参数的模型不是一项小任务。Tülu3-405B需要32个节点上的256个GPU,使用优化的推理引擎vLLM,具有16路张量并行性。根据一篇博客文章,Ai2的工程师面临着几个挑战,包括这些强烈的计算要求:“训练Tülu 3 405B需要32个节点(256个GPU)并行运行。为了进行推理,我们使用具有16路张量并行性的vLLM部署了模型,同时利用剩余的240个GPU进行训练。虽然我们的大多数代码库扩展良好,但我们偶尔会遇到NCCL超时和同步问题,需要细致的监控和干预。”

还有超参数调整的挑战:“考虑到计算成本,超参数调整是有限的。我们遵循了“较大模型的学习率较低”的原则,这与Llama模型的先前实践是一致的。”Ai2团队说。

借助Tülu3-405B,Ai2不仅仅是发布了另一个开源AI模型。这是关于模型训练的声明。通过扩大其RLVR方法,Ai2不仅建立了一个可以对抗GPT-4o和DeepSeek-V3等顶级人工智能的模型,而且还提出了一个重要的想法:当以正确的方式训练时,更大的模型可以变得更好。训练Tülu3-405B不仅在问题上投入了更多的数据,还使用了专业、高质量的数据和周到的训练技术来改进它。

但除了技术上的胜利,Tülu3-405B还强调了人工智能的一个更大转变:保持创新开放和可访问性的斗争。虽然最大的人工智能模型通常被锁定在企业付费墙后面,但Ai2押注于一个强大的人工智能仍然可供研究人员、开发人员和任何有足够好奇心进行实验的人使用的未来。

为此,Ai2已将Tülu3-405B免费提供给研究和实验,并将其托管在Google Cloud(不久后将推出Vertex)上,并通过Ai2 Playground提供演示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

退脏衣女记者全网社死!正脸很白净,坏到骨子里,山东文旅遭围攻

李健政观察
2026-01-26 09:33:07
“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

鹰眼Defence
2026-01-26 17:27:05
40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

牛弹琴123456
2025-12-28 16:35:58
172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

书纪文谭
2026-01-26 00:37:56
简直不敢相信,莫言竟将日本侵华战争比作“兄弟争夺家产”

简直不敢相信,莫言竟将日本侵华战争比作“兄弟争夺家产”

雪中风车
2026-01-18 17:08:39
2月已有49条中日航线取消全部航班,多家航司发布通知→

2月已有49条中日航线取消全部航班,多家航司发布通知→

新快报新闻
2026-01-26 19:31:04
六旬老人跟团北京5日游,第3天猝死!连续两天凌晨集合,导游临时在车上通知增加游览项目,法院判了

六旬老人跟团北京5日游,第3天猝死!连续两天凌晨集合,导游临时在车上通知增加游览项目,法院判了

扬子晚报
2026-01-24 22:29:57
斯瓦泰克送蛋创纪录,女单8强出炉创35年罕见情况

斯瓦泰克送蛋创纪录,女单8强出炉创35年罕见情况

体育妞世界
2026-01-26 21:58:54
库页岛有“三不”:不属于中国、不像俄罗斯、不承认过去

库页岛有“三不”:不属于中国、不像俄罗斯、不承认过去

壹知眠羊
2026-01-13 07:14:17
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
清水梨纱:上次亚洲杯我们不敌中国,现在要以挑战者心态迎战

清水梨纱:上次亚洲杯我们不敌中国,现在要以挑战者心态迎战

懂球帝
2026-01-26 17:30:12
三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

墨兰史书
2026-01-26 08:20:07
田家慌了!全网复刻田氏艺术,85岁雕塑家的遮羞布藏不住了

田家慌了!全网复刻田氏艺术,85岁雕塑家的遮羞布藏不住了

离离言几许
2026-01-26 12:26:16
原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

另子维爱读史
2026-01-26 18:34:27
一记重拳!中国发外交照会,限日本6个月交出,118年前掠走的唐碑

一记重拳!中国发外交照会,限日本6个月交出,118年前掠走的唐碑

策略述
2026-01-26 12:32:25
焦泊乔伤情更新!广东遭晴天霹雳,还有3个坏消息让杜锋更加上火

焦泊乔伤情更新!广东遭晴天霹雳,还有3个坏消息让杜锋更加上火

后仰大风车
2026-01-27 07:05:09
细节做到了极致!日本队主罚点球前:疑似偷看李昊点球笔记

细节做到了极致!日本队主罚点球前:疑似偷看李昊点球笔记

邱泽云
2026-01-26 12:28:32
特朗普通告全球,将对法国加税200%,不到24小时,马克龙喊话中国

特朗普通告全球,将对法国加税200%,不到24小时,马克龙喊话中国

法老不说教
2026-01-26 23:14:58
王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

澎湃新闻
2026-01-26 20:03:15
佐藤龙之介:罚点前李昊的喊话我没太听清,这种行为这很正常

佐藤龙之介:罚点前李昊的喊话我没太听清,这种行为这很正常

懂球帝
2026-01-26 18:55:07
2026-01-27 10:15:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1635文章数 510关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

英国首相访华前高调表态:前几任首相不去中国是失职

头条要闻

英国首相访华前高调表态:前几任首相不去中国是失职

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
时尚
亲子
手机
军事航空

教育要闻

中国民航大学空管学院,就业崩了?

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

亲子要闻

吃动防护全安排!一文搞定孩子寒假健康

手机要闻

REDMI Turbo 5 Max搭载新一代超级阳光屏:6.83英寸、3500nits亮度

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版