网易首页 > 网易号 > 正文 申请入驻

英伟达发布TiDAR:单步生成多个Token,吞吐量提升近600%

0
分享至

IT之家 12 月 2 日消息,科技媒体 Tom's Hardware 今天(12 月 2 日)发布博文,报道称英伟达在最新论文中,详述名为 TiDAR 的新型 AI 解码方法,巧妙融合了自回归(Autoregressive)与扩散(Diffusion)两种模型机制,利用 GPU 的“空闲槽位”加速文本生成。

自回归(Autoregressive)是一种生成方式,AI 必须根据上一个字才能猜出下一个字,像接龙一样,只能按顺序一个接一个生成。

扩散(Diffusion)常用于 AI 绘画的技术,通过逐步去除噪点来生成内容,在 TiDAR 中,它被用来一次性“猜”出好几个可能的词,供后续筛选。

IT之家援引博文介绍,当前的语言模型通常一次生成一个 Token(词元),这种逐个生成的机制导致了极高的计算成本和延迟。

TiDAR 的核心理念在于利用模型推理过程中未被使用的“空闲槽位”,在不牺牲生成质量的前提下,通过单步生成多个 Token 来大幅提升响应速度并降低 GPU 运行时长。

在技术原理方面,TiDAR 创新性地训练单个 Transformer 模型同时执行两项任务:标准的自回归“下一词预测”和基于扩散的“并行起草”。

不同于以往依赖独立草稿模型的投机解码(Speculative Decoding),TiDAR 通过结构化的注意力掩码(Attention Mask)将输入分为三个区域:前缀区、验证区和起草区。


投机解码是一种加速技术,先用一个小模型快速草拟一段话,再由大模型进行检查和修正。TiDAR 试图在同一个模型内完成这两步。

这种设计让模型在利用扩散头并行起草新 Token 的同时,还能通过自回归头验证这些草稿,最关键的是,它确保了 KV 缓存(KV Cache)的结构有效性,解决了早期扩散解码器面临的部署难题。


研究团队基于 Qwen 系列模型进行了测试。在 HumanEval 和 GSM8K 等基准测试中,TiDAR 的准确率与基准模型持平甚至略有提升。

在速度方面,15 亿参数版本的 TiDAR 模型实现了 4.71 倍的吞吐量增长;而 80 亿参数版本的表现更为抢眼,吞吐量达到了 Qwen3-8B 基准的 5.91 倍。这表明在当前测试规模下,TiDAR 能有效利用 GPU 的显存带宽,在不增加额外显存搬运的情况下生成更多 Token。

该媒体指出尽管实验数据亮眼,TiDAR 目前仍面临规模扩展的挑战。论文中的测试仅限于 80 亿参数以下的中小模型,且未涉及定制化的内核级优化(如 fused kernels),仅使用了标准的 PyTorch 环境。

随着模型参数量和上下文窗口的扩大,计算密度可能会饱和,从而压缩“多 Token 扩展”的成本优势。研究人员表示,未来将在更大规模的模型上进行验证,以确定该技术是否能成为云端大规模 AI 部署的实用替代方案。

参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
房子遍地1万出头的兴隆湖

房子遍地1万出头的兴隆湖

不鱼
2026-01-24 22:56:47
索尼高管怒斥布莱克·莱弗利:“不成熟且业余,像个恐怖分子”

索尼高管怒斥布莱克·莱弗利:“不成熟且业余,像个恐怖分子”

粉红冻奶的观影日记
2026-01-24 20:30:34
中国移动:重磅合并重组启动!

中国移动:重磅合并重组启动!

环球通信
2026-01-24 11:48:01
好消息!铁路新规:60岁以上老人乘坐高铁火车,可享受5大福利

好消息!铁路新规:60岁以上老人乘坐高铁火车,可享受5大福利

巢客HOME
2026-01-25 06:50:03
英超20亿大战!阿森纳剑指双杀曼联:冲击百年纪录 核心对决

英超20亿大战!阿森纳剑指双杀曼联:冲击百年纪录 核心对决

叶青足球世界
2026-01-25 05:00:03
熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

疯说时尚
2026-01-24 09:20:12
上海高架一新能源车正在行驶,司机在车内呼呼大睡,网友震惊:这样是否合理?合法?

上海高架一新能源车正在行驶,司机在车内呼呼大睡,网友震惊:这样是否合理?合法?

上海圈
2026-01-23 18:28:42
水果润肺一蒸见效,陈年痰全化了;喉咙瞬间超舒服做法超简单又快

水果润肺一蒸见效,陈年痰全化了;喉咙瞬间超舒服做法超简单又快

阿天爱旅行
2026-01-21 00:18:48
李行亮再谈《再见爱人》争议,被抵制至今没工作:已经黄了十个活

李行亮再谈《再见爱人》争议,被抵制至今没工作:已经黄了十个活

韩小娱
2026-01-24 11:29:09
亚足联官方:打进4球的越南前锋阮庭北当选U23亚洲杯最佳射手

亚足联官方:打进4球的越南前锋阮庭北当选U23亚洲杯最佳射手

懂球帝
2026-01-25 02:34:12
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

红豆讲堂
2024-10-21 09:30:24
凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

篮球小烟花
2026-01-25 08:00:02
捐三千万修公路却被绕开自家,乡长放狠话,当晚撤资让全乡道路停工

捐三千万修公路却被绕开自家,乡长放狠话,当晚撤资让全乡道路停工

磊子讲史
2026-01-14 16:28:35
张贤亮:性、政治和权力

张贤亮:性、政治和权力

尚曦读史
2025-12-12 09:01:03
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

中国最后一位太监孙耀庭自述:晚上伺候娘娘时,鞋底必须藏苍耳

妙知
2025-08-28 10:19:43
苏嘉全昨走马上任!港媒:两岸复谈有底线,只有一条路径

苏嘉全昨走马上任!港媒:两岸复谈有底线,只有一条路径

海峡导报社
2026-01-24 07:58:12
酸菜或在改变你的大脑?研究发现:“发酵食品”或影响海马体功能

酸菜或在改变你的大脑?研究发现:“发酵食品”或影响海马体功能

橘子约定
2026-01-24 09:54:43
40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

牛弹琴123456
2025-12-28 16:35:58
2026-01-25 08:11:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
326318文章数 606909关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

时尚
家居
手机
旅游
本地

冬天最佳“显瘦”公式:上短+下长

家居要闻

在家度假 160平南洋混搭宅

手机要闻

大疆Osmo Pocket 4 Pro手持云台相机现身,横排双摄设计

旅游要闻

雪落颐和,一湖晨光藏尽中式美学的终极浪漫!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版