网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鱼饵含精神药品“安定”!日产十吨销往全国,厂家:鱼被麻痹狂咬钩 利润率50%

鱼饵含精神药品“安定”!日产十吨销往全国,厂家:鱼被麻痹狂咬钩 利润率50%

猫头鹰视频
2026-06-12 19:15:43
好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

林林先生
2026-06-13 10:25:06
有一种坏叫“不介入他人因果”

有一种坏叫“不介入他人因果”

通往远方的路
2026-06-12 08:52:09
存款去哪了?居民存款连续两个月减少:合计缩水超2万亿元

存款去哪了?居民存款连续两个月减少:合计缩水超2万亿元

南方都市报
2026-06-12 20:36:03
记者:罗德里将加盟巴黎,世界杯后官宣

记者:罗德里将加盟巴黎,世界杯后官宣

懂球帝
2026-06-13 11:56:07
斯皮尔伯格科幻新作首日全球票房突破1200万美元

斯皮尔伯格科幻新作首日全球票房突破1200万美元

追星雷达站
2026-06-13 01:19:09
李书福:将有序关停并转吉利汽车集团有限公司相关冗余主体

李书福:将有序关停并转吉利汽车集团有限公司相关冗余主体

红星资本局
2026-06-13 11:26:05
美加墨世界杯第二场比赛就现空座,票价争议浮出水面

美加墨世界杯第二场比赛就现空座,票价争议浮出水面

澎湃新闻
2026-06-12 17:40:29
上海31岁男幼师溺水身亡,母亲发声:儿子不会主动去水边,事发前一日与园长谈话至午夜;当地教育局已介入

上海31岁男幼师溺水身亡,母亲发声:儿子不会主动去水边,事发前一日与园长谈话至午夜;当地教育局已介入

封面新闻
2026-06-13 00:54:35
订单太多?特斯拉中国:Model 3 全系...

订单太多?特斯拉中国:Model 3 全系...

新浪财经
2026-06-12 22:30:54
刚刚,马斯克成人类史上首位万亿富翁,但全网最羡慕的是 SpaceX 焊工

刚刚,马斯克成人类史上首位万亿富翁,但全网最羡慕的是 SpaceX 焊工

AppSo
2026-06-13 09:42:15
“男子发现学位证无效举报自己”,山东医药大学:展某某违反校规校纪,学校决定不授予学士学位,时任教务处负责人私自违规将学位证书借出

“男子发现学位证无效举报自己”,山东医药大学:展某某违反校规校纪,学校决定不授予学士学位,时任教务处负责人私自违规将学位证书借出

都市快报橙柿互动
2026-06-12 21:35:33
数据出炉,爆了!世界杯在中国收视率,让所有 FIFA 领导层后怕

数据出炉,爆了!世界杯在中国收视率,让所有 FIFA 领导层后怕

酷侃体坛
2026-06-12 18:57:16
马斯克正式成为人类首个10000亿美元富豪,还带动约400名员工成为亿万富翁;这些钱每小时花100万美元、24小时不停,需要超114年才能花完

马斯克正式成为人类首个10000亿美元富豪,还带动约400名员工成为亿万富翁;这些钱每小时花100万美元、24小时不停,需要超114年才能花完

极目新闻
2026-06-12 22:28:06
多揪出“放水”的人!中央安全生产考核巡查组,正陆续进驻地方

多揪出“放水”的人!中央安全生产考核巡查组,正陆续进驻地方

政知新媒体
2026-06-12 20:04:05
18万的路虎,背刺大批中产

18万的路虎,背刺大批中产

鸣金网
2026-06-12 19:54:56
张雪被坑惨!“生锈门”反转,原来手里囤了几百万雅马哈卖不动?

张雪被坑惨!“生锈门”反转,原来手里囤了几百万雅马哈卖不动?

知法而形
2026-06-12 16:57:16
“命运让我轰轰烈烈波荡起伏”,入学前查出肺癌晚期,湖南女孩毕业典礼发言感动全网

“命运让我轰轰烈烈波荡起伏”,入学前查出肺癌晚期,湖南女孩毕业典礼发言感动全网

潇湘晨报
2026-06-13 07:56:15
墨西哥看世界杯遭持枪抢劫中国男子已平安回国,当事人:飞机落地时听到《故乡的云》我们眼泪都出来了,祖国就是我们最强大的靠山

墨西哥看世界杯遭持枪抢劫中国男子已平安回国,当事人:飞机落地时听到《故乡的云》我们眼泪都出来了,祖国就是我们最强大的靠山

潇湘晨报
2026-06-13 14:16:19
于总,我们到底值多少钱?

于总,我们到底值多少钱?

布衣乱弹
2026-06-12 18:08:08
2026-06-13 15:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7372文章数 20757关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

亲子
手机
游戏
艺术
公开课

亲子要闻

生源减少 6.61 万 !招生季又迎来南通2所幼儿园关门…

手机要闻

大疆独占云台相机92.9%份额 影石出手改写格局

前棒鸡员工发声:马拉松绝非失败!它是工作室存亡关键

艺术要闻

书法各体临习方法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版