网易首页 > 网易号 > 正文 申请入驻

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。



多token预测模型,在编程类任务上表现尤其突出

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。



小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。



不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。



另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍

多token预测更适合编程

具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。

使用大量文本数据进行模型训练,包括代码和自然语言数据集。

再通过实验比较多token预测和单token预测在多个下游任务上的性能。



为啥多token预测在编程任务和小型算法推理任务上提升更明显?

团队猜测可能有两个原因:

第一,编程语言的逻辑结构更严谨,知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。

第二,相比自然语言,编程语言的词汇量更小。因此即便每次预测多个Token,难度也没那么大。反而能迫使模型从局部细节中抽身,着眼全局优化。



除了在token层面的实验,团队还在更细粒度的字节级模型上做了尝试。

他们发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%。

而且推理速度还能再快6倍,简直不要太香。



对于背后原理,团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异

也就是说,在训练的时候,模型看到的都是标准答案,生成的时候却得靠自己。好比人类在家做练习册时有答案,考试时却啥也没有,就会不适应。

而多token预测相当于训练时就逼着模型多想几步,这样到了考场上,才能应对自如。

从信息论的角度,团队还给出了一个更精确的论证。

传统的下一个Token预测,目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。

数学推导表明,后者其实隐含了更大的互信息权重,也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。

不过在这篇论文中,还有几个未解决的问题。

比如没有探讨如何自动选择最佳的预测token数量n,作者提出,未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题

此外最佳的词表大小也可能与单token预测时不同。

总之,看过这篇论文之后,大家都更期待Llama-4了。



论文地址:
https://arxiv.org/abs/2404.19737

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国终于出手了!只要非法越境者进入南海,海警可直接拘留

中国终于出手了!只要非法越境者进入南海,海警可直接拘留

宇宙看世界啊
2024-05-17 10:49:39
马斯克12字评普京访华,戳中拜登肺管子,美防长:我要见中国防长

马斯克12字评普京访华,戳中拜登肺管子,美防长:我要见中国防长

千里持剑
2024-05-17 13:34:02
郭有才的爆火,真相其实很恐怖

郭有才的爆火,真相其实很恐怖

刘娜
2024-05-17 12:33:47
字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

手机中国
2024-05-17 14:32:24
72岁部级高官突然死亡,死前严重脱相,曾称中国食品安全世界第一

72岁部级高官突然死亡,死前严重脱相,曾称中国食品安全世界第一

求实者
2024-05-17 22:48:56
好消息!中国最想要的重要技术,俄罗斯终于开口了

好消息!中国最想要的重要技术,俄罗斯终于开口了

亦纯杂谈
2024-05-17 19:28:55
中国移动倒下了,剩下的另外两家还能坚持多久?51万仅仅是开始?

中国移动倒下了,剩下的另外两家还能坚持多久?51万仅仅是开始?

芯怡飞
2024-05-17 22:00:04
汪峰带森林北回家过夜,恋情曝光后首发声,女方背5.5w包好豪横!

汪峰带森林北回家过夜,恋情曝光后首发声,女方背5.5w包好豪横!

古希腊掌管月桂的神
2024-05-17 16:30:41
世联赛中国女排VS加拿大,蔡斌做出意外决定,0分球员首发

世联赛中国女排VS加拿大,蔡斌做出意外决定,0分球员首发

极度说球
2024-05-18 05:11:56
“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

“一丝不挂”新舞蹈?惹争议,被摸下体更不害臊,金星质疑是对的

吃鱼思故渊
2024-05-16 21:48:21
李宁:球队非常困难,对不起现场球迷们

李宁:球队非常困难,对不起现场球迷们

懂球帝
2024-05-17 22:18:44
普京想要的,中方给得很爽快,飞离北京前,他还去了一个特殊地方

普京想要的,中方给得很爽快,飞离北京前,他还去了一个特殊地方

前沿天地
2024-05-17 15:53:14
戛纳红毯上唐嫣的待遇“秒杀”巩俐,揭开了娱乐圈的残酷遮羞布!

戛纳红毯上唐嫣的待遇“秒杀”巩俐,揭开了娱乐圈的残酷遮羞布!

娱乐的小灶
2024-05-17 18:19:01
网传驻马店市通知:打假博主狂飙兄弟已到我市,请各商户高度重视

网传驻马店市通知:打假博主狂飙兄弟已到我市,请各商户高度重视

兵叔评说
2024-05-17 13:46:26
地产救市,已经刹不住车了!

地产救市,已经刹不住车了!

地产八卦女
2024-05-17 17:34:52
日本女性出轨率近50%,为何丈夫大多视而不见?原因令人唏嘘

日本女性出轨率近50%,为何丈夫大多视而不见?原因令人唏嘘

布谷妈妈
2024-05-15 19:58:28
面对登月造假质疑,美国终于出手了,雇大量水军发统一文案进行反击

面对登月造假质疑,美国终于出手了,雇大量水军发统一文案进行反击

不掉线电波
2024-05-17 14:22:54
福建舰首航试验选在美菲“肩并肩”联演时,表明中国已做好战斗准备?国防部回应

福建舰首航试验选在美菲“肩并肩”联演时,表明中国已做好战斗准备?国防部回应

环球网资讯
2024-05-17 15:44:11
美国大桥被撞断七周了,全体船员居然还在船上!不是坐牢,胜似坐牢...

美国大桥被撞断七周了,全体船员居然还在船上!不是坐牢,胜似坐牢...

英国那些事儿
2024-05-16 23:03:56
幼儿园抽签要带28份榴莲,妈妈果断选择请假,被带草莓家长内涵

幼儿园抽签要带28份榴莲,妈妈果断选择请假,被带草莓家长内涵

影孖看世界
2024-05-17 19:42:59
2024-05-18 07:20:49
量子位
量子位
追踪人工智能动态
9406文章数 175283关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

亲子
艺术
房产
旅游
公开课

亲子要闻

小朋友背着琵琶下课,像极了琵琶放假~

艺术要闻

真诚度101%,35岁的诚品画廊为什么选择北京?

房产要闻

19.1亿,三亚挂出超级教育+宅地!要建国际学校,这个板块价值又要涨!

旅游要闻

火车票改签收手续费了?12306回应

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版