网易首页 > 网易号 > 正文 申请入驻

英伟达突然开源新模型!性能直逼 DeepSeek-R1,4 倍推理吞吐量卷翻天

0
分享至

今天,英伟达开源了一款名为 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。

该模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型开发,拥有 2530 亿个参数,在多项第三方基准测试中表现出色。

英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。

测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务(66.3 vs. 65.9)。

并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。

不过,在 MATH500 和 Arena Hard 基准测试中,DeepSeek R1 仍略占优势。

据悉,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。

技术特点如下:
1️⃣ 采用神经架构搜索(NAS)优化架构
2️⃣ 引入跳跃注意力层、融合前馈网络(FFN)和可变 FFN 压缩率
3️⃣ 降低内存占用和计算需求,保持输出质量
4️⃣ 可在单个 8x H100 GPU 节点高效部署
5️⃣ 部署支持 B100 和 Hopper 微架构硬件
6️⃣ 在 BF16 和 FP8 精度模式下均验证通过

目前,该模型的代码已在 Hugging Face 平台上公开,包含开放的权重和训练后数据。

Llama-3.1-Nemotron-Ultra-253B 可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,该模型已获准用于商业用途。

附上体验地址:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名主持人暴瘦认不出,五年四次进ICU,病重时前妻分走大半财产

知名主持人暴瘦认不出,五年四次进ICU,病重时前妻分走大半财产

聊历史的阿稼
2026-05-14 09:57:42
国乒格局洗牌,一天2位名将退队,王励勤下狠心,樊振东恐被弃用

国乒格局洗牌,一天2位名将退队,王励勤下狠心,樊振东恐被弃用

以茶带书
2026-05-14 16:05:16
52岁董卿近况:去重庆和友人聚餐,容颜不变很温柔,与丈夫没离婚

52岁董卿近况:去重庆和友人聚餐,容颜不变很温柔,与丈夫没离婚

小冠说娱
2026-05-14 03:52:24
中超第12轮焦点:国安枪炮齐鸣战黑马,青岛海牛五连胜梦碎?

中超第12轮焦点:国安枪炮齐鸣战黑马,青岛海牛五连胜梦碎?

世明讲球事
2026-05-14 16:09:59
转发周知!15日起售,60周岁及以上老年旅客可享淡季火车票优惠

转发周知!15日起售,60周岁及以上老年旅客可享淡季火车票优惠

每日经济新闻
2026-05-13 18:56:46
日本乒协没想到,世乒赛惨败中国队后,最先扛不住的,是张本智和

日本乒协没想到,世乒赛惨败中国队后,最先扛不住的,是张本智和

富贵体坛说
2026-05-14 16:28:08
欧美为什么希望我们也不要加班?

欧美为什么希望我们也不要加班?

罗sir财话
2026-05-11 17:35:24
伊朗危险了!特朗普专机抵京前,中美达成共识,霍尔木兹不许收费

伊朗危险了!特朗普专机抵京前,中美达成共识,霍尔木兹不许收费

坦荡的雪莉
2026-05-14 15:16:59
黄仁勋拿下第6个博士学位 毕业演讲:AI 可能不会取代你,但善用AI的人可能会

黄仁勋拿下第6个博士学位 毕业演讲:AI 可能不会取代你,但善用AI的人可能会

每日经济新闻
2026-05-12 11:03:00
数学家丘成桐在研讨会上晕倒,现场一片混乱,PPT不忘提及田刚

数学家丘成桐在研讨会上晕倒,现场一片混乱,PPT不忘提及田刚

妍妍教育日记
2026-05-14 09:22:03
王励勤下狠手!国乒选拔大洗牌,樊振东出局、蒯曼惨遭规则背刺

王励勤下狠手!国乒选拔大洗牌,樊振东出局、蒯曼惨遭规则背刺

野渡舟山人
2026-05-14 11:50:58
正式退出,樊振东遗憾,国乒选拔规则曝光,2小将+梁靖崑有戏

正式退出,樊振东遗憾,国乒选拔规则曝光,2小将+梁靖崑有戏

懂球社
2026-05-13 15:00:08
22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

极目新闻
2026-05-13 12:26:13
韩国总统李在明会见何立峰

韩国总统李在明会见何立峰

每日经济新闻
2026-05-13 17:19:38
没有中方官员接待,日本代表团抵沪第三天,外交部摊牌亮明态度

没有中方官员接待,日本代表团抵沪第三天,外交部摊牌亮明态度

小叨娱乐
2026-05-14 14:23:34
“都绝户了,还拼命挣钱干嘛?”看见父亲50岁就躺平,我崩溃了

“都绝户了,还拼命挣钱干嘛?”看见父亲50岁就躺平,我崩溃了

素十三儿
2026-04-13 07:12:36
A股:突然跳水大跌,原因是什么?释放什么信号?行情到顶了吗?

A股:突然跳水大跌,原因是什么?释放什么信号?行情到顶了吗?

虎哥闲聊
2026-05-14 11:37:25
两性关系:男性过了75,不管跟谁处,牢记4句话,余生少心酸

两性关系:男性过了75,不管跟谁处,牢记4句话,余生少心酸

匹夫来搞笑
2026-05-14 00:32:20
朱珠穿上鲨鱼裤练瑜伽,身材好辣,一点也不像39岁的宝妈

朱珠穿上鲨鱼裤练瑜伽,身材好辣,一点也不像39岁的宝妈

草莓解说体育
2026-05-14 11:43:21
第一集就全裸出镜,女神新剧破格出演了

第一集就全裸出镜,女神新剧破格出演了

来看美剧
2026-04-27 16:21:10
2026-05-14 17:00:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6381文章数 26835关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆一栋百年古建筑以399万公开拍卖 仅限中国人竞买

头条要闻

重庆一栋百年古建筑以399万公开拍卖 仅限中国人竞买

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

新时代传统豪华是什么样? 上汽奥迪E7X给出了自己的答案

态度原创

本地
数码
时尚
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

内存容量突破天花板!全何科技推出256GB单条RDIMM内存 全面适配英特尔至强6平台

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

教育要闻

华罗庚竞赛题,解法太巧妙了,学霸想不到

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版