网易首页 > 网易号 > 正文 申请入驻

英伟达开源TwoTower模型:保留98.7%质量,AI生成提速2.42倍

0
分享至

IT之家 7 月 3 日消息,英伟达昨日(7 月 2 日)发布博文,宣布推出 Nemotron-Labs-TwoTower,是一种基于预训练自回归骨干网络的离散扩散语言模型,致力于解决大模型 Token 生成速度瓶颈。


在开源方面,该模型以开源权重形式在 Huggingface 平台发布,授权协议为 NVIDIA Nemotron Open Model License。

参数方面,该模型总参数为 60B,采用双塔(TwoTower)架构,包括 30B 的自回归模型(AR)/context Tower 和 30B 的扩散 / 降噪 Tower,每个 Tower 激活 3B 模型,128 个可路由专家。

架构方面,TwoTower 最大的亮点,在于拆分传统扩散语言模型中的网络任务,将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。

其中一个塔(上下文塔)保持冻结,专注于维护文本的自回归上下文;另一个塔(去噪器塔)经过训练,负责对噪声块进行去噪,两个塔通过逐层交叉注意力连接协作。

性能方面,英伟达表示从综合基准测试质量来看,双塔架构保留 98.7% 的质量表现,但是实际运行时间吞吐量提高了 2.42 倍。IT之家附上相关测试结果如下:

任务Nemotron-3-Nano-30B-A3B (AR)Nemotron-Labs-TwoTower (diffusion)MMLU (5-shot, acc)78.5678.24MMLU-Pro (5-shot, CoT EM)62.5960.93ARC-Challenge (25-shot, acc_norm)91.7292.66WinoGrande (5-shot, acc)76.0976.09RACE (0-shot, acc)88.9088.90HumanEval (0-shot)79.2775.58MBPP-Sanitized (3-shot)74.7174.28GSM8K (8-shot, acc)92.4990.14MATH-500 (4-shot)84.4080.60MMLU Global Lite (5-shot)73.9773.94MGSM (8-shot, avg acc)80.8080.40Quality retained100%98.7%Generation throughput (× AR)1.0×2.42×

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
ETF资金榜 | 科创50ETF东财(589850):净流入9116.16万元,居全市场第一梯队-20260702

ETF资金榜 | 科创50ETF东财(589850):净流入9116.16万元,居全市场第一梯队-20260702

界面新闻
2026-07-03 09:31:19
2026-07-04 12:04:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
353089文章数 607330关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
亲子
健康
教育
公开课

家居要闻

传奇筑 日常诗

亲子要闻

穆祉丞永远是我们心中的完美小孩

听说少吃点能抗衰老?专家讲解!

教育要闻

必看!Excel版2025山东本科录取线+投档表 高考志愿填报

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版