网易首页 > 网易号 > 正文 申请入驻

预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队

0
分享至

丰色 发自 凹非寺
量子位 | 公众号QbitAI

小羊驼团队的新研究火了。

他们开发了一种新的解码算法,可以让模型生成token的速度提高1.5-2.3倍,进而加速LLM推理。

比如这是同一个模型(LLaMa-2-Chat 7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:

左边为原算法,耗时18.12s,每秒约35个token;

右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。

简单来说,这是一种并行解码算法,名叫“Lookahead Decoding”(前向解码)。

它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性(众所周知,当下大模型基本都是基于自回归的Transformer)。

由此无需草稿模型(draft model)或数据存储,就可以减少解码步骤,加速LLM推理。

目前,作者已给出了与huggingface/transformers兼容的实现,只需几行代码,使用者即可轻松增强HF原生生成的性能。

有网友表示:

该方法实在有趣,没想到在离散设置上效果这么好。

还有人称,这让我们离“即时大模型”又近了一步。

具体如何实现?

加速自回归解码的重要性

不管是GPT-4还是LLaMA,当下的大模型都是基于自回归解码,这种方法下的推理速度其实是非常慢的。

因为每个自回归解码步骤一次仅生成一个token

这样一来,模型输出的延迟有多高就取决于回答的长度。

更糟的是,这样的操作方式还浪费了现代GPU的并行处理能力

对于聊天机器人来说,当然是延迟越低,响应越快越好(尤其面对长序列答案时)。

此前,有人提出了一种叫做推测解码的加速自回归解码的算法,大致思路是采用猜测和验证策略,即先让草稿模型预测几个潜在的未来token,然后原始LLM去并行验证。

该方法可以“凭好运气”减少解码步骤的数量,从而降低延迟.

但也有不少问题,比如效果受到token接受率的限制,创建准确的草稿模型也麻烦,通常需要额外的训练和仔细的调整等。

在此,小羊驼团队提出了一种的新的精确并行解码算法,即前向解码来克服这些挑战。

前向解码打破顺序依赖性

前向解码之所以可行,是作者们观察到:

尽管一步解码多个新token是不可行的,但LLM确实可以并行生成多个不相交的n-grams——它们可能适合生成序列的未来部分。

这可以通过将自回归解码视为求解非线性方程,并采用经典的Jacobi迭代法进行并行解码来实现。

在过程中,我们就让生成的n-grams被捕获并随后进行验证,如果合适就将其集成到序列中,由此实现在不到m个步骤的时间内生成m个token的操作。

作者介绍,前向解码之所以能够“脱颖而出”,主要是因为它:

一不需草稿模型即可运行,简化了部署。

二是相对于每步 log(FLOPs)线性减少了解码步骤数,最终在单个GPU、不同数据集上实现快1.5倍-2.3倍的token数预测。

更重要的是,它允许分配更多(大于1个GPU)的 FLOP,以在对延迟极其敏感的应用程序中实现更大程度地延迟下降,尽管这会带来收益递减。

下面是具体介绍:

1、Jacobi迭代在进行求解非线性系统时,一并使用定点迭代方法一次性解码所有的未来token。

这个过程几乎看不到时钟加速。

2、前向解码通过收集和缓存Jacobi迭代轨迹生成的n-grams来利用Jacobi解码的能力。

下图为通过Jacobi解码收集2-grams,然后验证并加速解码的过程。

3、每个解码步骤有2个分支:

前向分支维护一个固定大小的2D窗口,以根据Jacobi轨迹生成n-grams;验证分支验证有希望的n-grams。

作者实现了二合一atten mask,以进一步利用GPU的并行计算能力。

4、前向解码无需外部源即可立即生成并验证非常多的n-grams。这虽然增加了步骤的成本,但也提高了接受更长n-grams可能性。

换句话说,前向解码允许用更多的加速器来减少延迟。

5、作者检查了flops vs 延迟减少之间的缩放行为,并找到了缩放法则:
当n-grams足够大时(比如11-gram),以指数方式增加未来的token猜测(即窗口大小)可以线性减少解码步骤数。

作者介绍

本方法作者一共4位,全部来自小羊驼团队。

其中有两位华人:

傅一超以及张昊,后者博士毕业于CMU,硕士毕业于上交大,现在是加州大学圣地亚哥分校助理教授。

参考链接:
[1]https://twitter.com/lmsysorg/status/1727056892671950887
[2]https://lmsys.org/blog/2023-11-21-lookahead-decoding/
[3]https://github.com/hao-ai-lab/LookaheadDecoding

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南祁东沿路插了百余米的白事支架灯笼,上面印“奠” 下面挂长条幅,当地民政局:已全部拆除

湖南祁东沿路插了百余米的白事支架灯笼,上面印“奠” 下面挂长条幅,当地民政局:已全部拆除

大风新闻
2026-04-11 10:41:08
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
美国3月CPI同比上涨3.3%,为2024年以来的最快增速,经济学家警告,此轮能源冲击的二次效应 ,尚未在核心通胀中充分体现 ,4月数据面临进一步走高风险

美国3月CPI同比上涨3.3%,为2024年以来的最快增速,经济学家警告,此轮能源冲击的二次效应 ,尚未在核心通胀中充分体现 ,4月数据面临进一步走高风险

每日经济新闻
2026-04-11 10:05:54
这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

这一次,“宠女无度”的贾平凹被扒了个底朝天,王朔的评价是对的

揽星河的笔记
2026-04-10 20:02:37
熬出头!整整4年啊,终于不用打附加赛,老鹰,感谢吹杨吧

熬出头!整整4年啊,终于不用打附加赛,老鹰,感谢吹杨吧

球童无忌
2026-04-11 21:02:53
阿尔忒弥斯2号成功溅落,隔热罩惊险过关

阿尔忒弥斯2号成功溅落,隔热罩惊险过关

DeepTech深科技
2026-04-11 09:54:58
中超第5轮悲喜交加:升班马领跑,申花泰山险胜,挣扎者何在?

中超第5轮悲喜交加:升班马领跑,申花泰山险胜,挣扎者何在?

风风拒绝焦虑
2026-04-12 02:36:22
广东队VS广厦队,广东队13人大名单出炉!

广东队VS广厦队,广东队13人大名单出炉!

体育哲人
2026-04-11 20:22:58
浙江绍兴一公厕两出入口均挂男士标识,监督员回应

浙江绍兴一公厕两出入口均挂男士标识,监督员回应

新京报
2026-04-11 09:27:59
这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

喜欢历史的阿繁
2026-04-11 06:47:10
西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

西方承认,经过中东这一仗才发现,中国手里3张王牌,别人玩不来

闻识
2026-04-06 03:08:50
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
美学者:“如今,除美国外,全球所有国家都已经看清,与美国走得太近只会惹祸上身”

美学者:“如今,除美国外,全球所有国家都已经看清,与美国走得太近只会惹祸上身”

都市快报橙柿互动
2026-04-11 20:10:13
合肥房价为什么跌得这么惨?

合肥房价为什么跌得这么惨?

维纳斯的眼泪
2026-04-11 14:26:24
悲哀!相亲女月薪3000,年入20万男生被她认为是普通人,引发热议

悲哀!相亲女月薪3000,年入20万男生被她认为是普通人,引发热议

火山詩话
2026-04-11 08:18:13
张兰调查大S真正死因,遗体着急火化另有隐情,小S的态度说明一切

张兰调查大S真正死因,遗体着急火化另有隐情,小S的态度说明一切

阿绐聊社会
2026-04-12 01:46:24
光通信成AI时代黑马,这些公司悄悄赚翻了!

光通信成AI时代黑马,这些公司悄悄赚翻了!

我不叫阿哏
2026-04-12 03:35:56
山西49岁局长在办突发疾病抢救无效离世,小儿子今年6月参加高考,妻子称丈夫常加班到凌晨两三点,出事前还接了几个工作电话

山西49岁局长在办突发疾病抢救无效离世,小儿子今年6月参加高考,妻子称丈夫常加班到凌晨两三点,出事前还接了几个工作电话

极目新闻
2026-04-11 16:04:10
访陆第4天,郑丽文见到最想见之人!闭门会谈1小时,大陆4点建议

访陆第4天,郑丽文见到最想见之人!闭门会谈1小时,大陆4点建议

沧海一书客
2026-04-12 03:04:40
2026-04-12 04:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12457文章数 176449关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

旅游
教育
艺术
手机
军事航空

旅游要闻

[视频]多元业态融合 打造文旅消费新热点

教育要闻

阿图什西部计划志愿者访顾炎武家乡

艺术要闻

你绝对想不到,这个国家美女竟如此多!

手机要闻

全球首款阔折叠卖爆!华为Pura X一年出货量超150万台

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版