网易首页 > 网易号 > 正文 申请入驻

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。



多token预测模型,在编程类任务上表现尤其突出

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。



小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。



不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。



另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。

使用大量文本数据进行模型训练,包括代码和自然语言数据集。

再通过实验比较多token预测和单token预测在多个下游任务上的性能。



为啥多token预测在编程任务和小型算法推理任务上提升更明显?

团队猜测可能有两个原因:

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。



除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。

而且推理速度还能再快6倍,简直不要太香。



对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。

从信息论的角度,团队还给出了一个更精确的论证。

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。

不过在这篇论文中,还有几个未解决的问题。

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题

此外最佳的词表大小也可能与单token预测时不同。

总之,看过这篇论文之后,大家都更期待Llama-4了。



论文地址:
https://arxiv.org/abs/2404.19737

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男性要注意了!这个部位的毛发变白,证明寿命在逐渐减少

男性要注意了!这个部位的毛发变白,证明寿命在逐渐减少

慎独赢
2024-06-07 01:24:33
马伊琍宠着、黄渤护着,长得不漂亮却让大咖轮流作配,她啥来头?

马伊琍宠着、黄渤护着,长得不漂亮却让大咖轮流作配,她啥来头?

闻星盼夏
2024-06-05 18:20:03
16GB+1TB确认了!新机官宣:6月20日,新品全新发布!

16GB+1TB确认了!新机官宣:6月20日,新品全新发布!

天才引路星
2024-06-08 12:57:48
艾薇十年传奇谁最耀眼?君岛美绪、波多野结衣等巨星引领风潮

艾薇十年传奇谁最耀眼?君岛美绪、波多野结衣等巨星引领风潮

北风咧
2024-03-07 15:36:09
福耀科技大学审批未过,清华原校长梅贻琦早已指出原因

福耀科技大学审批未过,清华原校长梅贻琦早已指出原因

请叫我教育君
2024-06-08 13:12:56
苏李达旭,已任佛山这个区城管局局长!

苏李达旭,已任佛山这个区城管局局长!

南方都市报
2024-06-08 13:02:21
果然,上海二手房开始“失控”了

果然,上海二手房开始“失控”了

落叶玫瑰
2024-06-04 21:01:50
国足客场死磕韩国的23人名单敲定,王大雷+高天意无缘,武磊回归

国足客场死磕韩国的23人名单敲定,王大雷+高天意无缘,武磊回归

罗掌柜体育
2024-06-07 16:00:36
基德太狡猾 马祖拉中计!G1惨败只是假象 独行侠完全可以逆转夺冠!

基德太狡猾 马祖拉中计!G1惨败只是假象 独行侠完全可以逆转夺冠!

热血篮球快攻
2024-06-08 13:23:53
越南视角:谅山战役消灭中国军队19000人,自身伤亡多少人?

越南视角:谅山战役消灭中国军队19000人,自身伤亡多少人?

雪莉故事汇
2024-06-08 07:53:06
快放生!四川老大爷钓到红色怪鱼,网友惊呼:牢底坐穿鱼

快放生!四川老大爷钓到红色怪鱼,网友惊呼:牢底坐穿鱼

小胡渔记
2024-05-30 08:40:02
我开饭店,堂哥每次吃饭都不给钱,饭店倒闭后在他办公室,我懂了

我开饭店,堂哥每次吃饭都不给钱,饭店倒闭后在他办公室,我懂了

记忆收藏家
2024-06-07 22:48:16
收受红包200多次、单次金额不大……县政协原主席钱权交易细节披露

收受红包200多次、单次金额不大……县政协原主席钱权交易细节披露

极目新闻
2024-06-07 20:22:38
董明珠:没有国,哪有家?评论区炸锅了,网友:你说反了!

董明珠:没有国,哪有家?评论区炸锅了,网友:你说反了!

世态言凉
2023-12-28 11:04:51
刚刚,哈马斯给了以色列一把刀

刚刚,哈马斯给了以色列一把刀

西楼饮月
2024-06-05 22:23:15
孙卓姐姐意外押中高考作文题目,孙卓淡定走出考场,这次稳了?

孙卓姐姐意外押中高考作文题目,孙卓淡定走出考场,这次稳了?

智学园
2024-06-08 13:22:24
仁爱礁菲军发动突袭,我方公开吃亏画面:这一幕让人想起1979年

仁爱礁菲军发动突袭,我方公开吃亏画面:这一幕让人想起1979年

帅先工场
2024-06-08 16:30:00
小米SU7突发1死3伤的严重事故!现场图片流出,司机身份被曝光…

小米SU7突发1死3伤的严重事故!现场图片流出,司机身份被曝光…

火山诗话
2024-06-07 16:48:30
曾经的第3大芯片架构终止,曾被认为是国产CPU崛起的希望

曾经的第3大芯片架构终止,曾被认为是国产CPU崛起的希望

原广工业
2024-06-07 07:15:02
女爱豆暗示给王思聪生了个女儿,校长前任回应:过分了

女爱豆暗示给王思聪生了个女儿,校长前任回应:过分了

娱记娱乐
2024-06-08 15:32:29
2024-06-08 17:34:44
量子位
量子位
追踪人工智能动态
9509文章数 175367关注度
往期回顾 全部

科技要闻

今年数学到底有多难?大模型:我也不太会

头条要闻

男子为证明"男子气概"赴边疆当兵 退役后成广绣绣郞

头条要闻

男子为证明"男子气概"赴边疆当兵 退役后成广绣绣郞

体育要闻

她拯救了WNBA,却为何被疯狂针对?

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

重磅详解:为什么美国经济还没有衰退?

汽车要闻

上汽大通大家9售26.99万起 综合续航1300km+

态度原创

健康
数码
旅游
家居
手机

晚餐不吃or吃七分饱,哪种更减肥?

数码要闻

COLORFIRE MEOW R16 笔记本配置上新:R9-7845HX+RTX 4070

旅游要闻

广州长隆野生动物世界推出“粽子”盛宴

家居要闻

柔和婉转 让阳光洒满空间

手机要闻

数百种任你用,时隔 8 年苹果终于扩充 iMessages 反应 Emoji

无障碍浏览 进入关怀版