网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15年单身母亲收到1530万汇款,汇款人称:你一定要收下,不要退回

15年单身母亲收到1530万汇款,汇款人称:你一定要收下,不要退回

起喜电影
2026-03-09 11:43:17
2亿预算引爆重建!皇马锁定克洛普,8大交易+贝林厄姆去留成谜

2亿预算引爆重建!皇马锁定克洛普,8大交易+贝林厄姆去留成谜

卿子书
2026-03-09 10:21:04
吴柳芳首次公开退役原因!8年15金16银 不如管晨辰1枚奥运金牌

吴柳芳首次公开退役原因!8年15金16银 不如管晨辰1枚奥运金牌

念洲
2026-03-09 12:21:54
廖承志被捕,蒋介石:你是廖仲恺和何香凝的后代,你要对得起他们

廖承志被捕,蒋介石:你是廖仲恺和何香凝的后代,你要对得起他们

浩渺青史
2026-03-09 16:28:26
拒绝私了!女子举报母亲去世后被“嫁给”亲弟弟,案件已提级调查,舅舅与小姨曾多次联系要求删视频

拒绝私了!女子举报母亲去世后被“嫁给”亲弟弟,案件已提级调查,舅舅与小姨曾多次联系要求删视频

大风新闻
2026-03-09 18:20:16
刘美贤谈退役复出后夺冠:如果我没有跌落谷底,我就不可能爬上来

刘美贤谈退役复出后夺冠:如果我没有跌落谷底,我就不可能爬上来

互联网大观
2026-03-09 12:49:35
见过日本人的驾照,才知道什么是牛鬼蛇神

见过日本人的驾照,才知道什么是牛鬼蛇神

不相及研究所
2026-03-07 22:04:00
特朗普战略性撤退,大概是回过神了:自己真成以色列的打工仔了!

特朗普战略性撤退,大概是回过神了:自己真成以色列的打工仔了!

青青子衿
2026-03-09 23:54:53
碎三观!一河南网友哭诉长期被妻子身体“冷暴力”,评论区炸锅…

碎三观!一河南网友哭诉长期被妻子身体“冷暴力”,评论区炸锅…

火山詩话
2026-03-09 05:29:27
小米正式官宣:3月10日,新机正式开售

小米正式官宣:3月10日,新机正式开售

科技堡垒
2026-03-10 09:54:33
特朗普赌更大的!四个最新动向决定中东战事走势

特朗普赌更大的!四个最新动向决定中东战事走势

补壹刀
2026-03-09 19:00:06
揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

揭秘!外卖员几乎不骑雅迪、爱玛,背后原因太现实,全是无奈之举

老特有话说
2026-03-08 15:32:40
广东女子卖女儿服发空包,害快递小哥被罚一万,找上门她却先哭了

广东女子卖女儿服发空包,害快递小哥被罚一万,找上门她却先哭了

离离言几许
2026-03-09 19:02:05
中国人口绝不能到亿级体量之下

中国人口绝不能到亿级体量之下

文青大叔说
2026-03-08 09:19:26
战术航空旅指挥官在乌克兰东部阵亡

战术航空旅指挥官在乌克兰东部阵亡

桂系007
2026-03-09 23:49:42
项立刚:中国男人要有点雄性,必须承担传宗接代的责任

项立刚:中国男人要有点雄性,必须承担传宗接代的责任

映射生活的身影
2026-03-09 17:30:49
欧洲求饶也不行,普京先发制人,现在就断气!中国或得大便宜

欧洲求饶也不行,普京先发制人,现在就断气!中国或得大便宜

解锁世界风云
2026-03-09 19:08:18
中国官媒发布5个教训!伊朗战争让解放军看到哪些鲜血经验?

中国官媒发布5个教训!伊朗战争让解放军看到哪些鲜血经验?

军武次位面
2026-03-09 17:42:21
亚视一哥陈启泰崩了:日赚斗金到靠老婆续命,20楼窗边的绝望谁懂

亚视一哥陈启泰崩了:日赚斗金到靠老婆续命,20楼窗边的绝望谁懂

东方不败然多多
2026-03-09 20:44:02
究竟逊尼派与什叶派的区别是什么?

究竟逊尼派与什叶派的区别是什么?

难得君
2026-03-07 09:53:43
2026-03-10 12:43:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7111文章数 20739关注度
往期回顾 全部

科技要闻

“龙虾”狂欢 卖“饲料”先挣钱了?

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

头条要闻

媒体:伊各方誓言赢得战争 美国现在即使想退出也很难

体育要闻

韩国女足羡慕的奢侈品,为何选择中国女足

娱乐要闻

肖战首夺SMG视帝,孙俪四封视后创历史

财经要闻

全民"养龙虾"背后 第一批受害者浮现

汽车要闻

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

态度原创

手机
旅游
本地
时尚
公开课

手机要闻

小米17 Ultra徕卡版黑银色上市:7999元起,徕卡门店同步开售

旅游要闻

接下来的郑州绝美!2026郑州春日赏花时间表来啦!

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

没有人不爱这个穿平底鞋都发光的女人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版