网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涉事“MIMI”发卡店铺已下架停业,平台仍有同款商品在售

涉事“MIMI”发卡店铺已下架停业,平台仍有同款商品在售

澎湃新闻
2026-05-30 00:02:08
西决抢七大战伤情报告出炉,马刺离队第一人确定

西决抢七大战伤情报告出炉,马刺离队第一人确定

世界体育圈
2026-05-30 09:31:19
5月28日 | 怂了?印官方下令封杀“反华神片”

5月28日 | 怂了?印官方下令封杀“反华神片”

南亚研究通讯
2026-05-29 23:36:16
罚的合理!杨鹤通三句话踩中德云社红线

罚的合理!杨鹤通三句话踩中德云社红线

手工制作阿歼
2026-05-30 10:12:15
历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

历史唯一没有农民起义的朝代,每任帝王都是明君,人口增长相当快

心中的麦田
2026-05-28 20:50:58
网友哭诉:比找不到工作更崩溃的是彻底不知道该干什么了?

网友哭诉:比找不到工作更崩溃的是彻底不知道该干什么了?

灯锦年
2026-05-28 16:36:03
官方:巴萨签下纽卡前锋安东尼-戈登;据悉转会费超8000万欧

官方:巴萨签下纽卡前锋安东尼-戈登;据悉转会费超8000万欧

懂球帝
2026-05-30 03:38:06
苏芒的维权之举引发争议!有博主站台,直言“其实她也挺无奈”

苏芒的维权之举引发争议!有博主站台,直言“其实她也挺无奈”

火山詩话
2026-05-29 09:43:36
炸裂!北京榜一大哥狂砸1700万,女主播美若天仙,聊天记录辣眼睛

炸裂!北京榜一大哥狂砸1700万,女主播美若天仙,聊天记录辣眼睛

小鋭有话说
2026-05-28 08:27:38
耿同学为何会有这个下场?

耿同学为何会有这个下场?

林中木白
2026-05-30 08:38:39
五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

影视高原说
2026-05-28 18:59:51
告诫:最伤眼睛的行为,不是玩手机!而是频繁地去做这6件事

告诫:最伤眼睛的行为,不是玩手机!而是频繁地去做这6件事

侯医生谈健康
2026-05-10 15:20:03
80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

菁菁子衿
2026-05-30 10:12:17
油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价早知道
2026-05-30 00:57:42
32岁女子称怀孕被诊断为闭经后流产,挂专家号看诊的却是医生的儿子,医院回应:专家与儿子系师徒关系 ,正与病人协商

32岁女子称怀孕被诊断为闭经后流产,挂专家号看诊的却是医生的儿子,医院回应:专家与儿子系师徒关系 ,正与病人协商

海峡网
2026-05-29 22:33:11
33岁环卫女工考上成都理工硕士研究生:比聪明的人多努力一点,比努力的人多用心一点|封面头条

33岁环卫女工考上成都理工硕士研究生:比聪明的人多努力一点,比努力的人多用心一点|封面头条

封面新闻
2026-05-28 21:22:48
舒淇早期拍摄写真时的留影,慵懒风情,自成风月

舒淇早期拍摄写真时的留影,慵懒风情,自成风月

娱你同欢
2026-05-01 21:31:11
三国不允许这么牛X的人存在

三国不允许这么牛X的人存在

我是历史其实挺有趣
2026-05-29 17:21:30
省建工集团状告城投公司、住建局!

省建工集团状告城投公司、住建局!

新浪财经
2026-05-30 01:12:09
世预赛男篮必出线?混血两兄弟拒省队征召 之前三年打琼斯杯挣钱

世预赛男篮必出线?混血两兄弟拒省队征召 之前三年打琼斯杯挣钱

大嘴爵爷侃球
2026-05-29 16:10:06
2026-05-30 10:56:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7319文章数 20754关注度
往期回顾 全部

科技要闻

英伟达、微软一同发布神秘预告 下周亮相?

头条要闻

茅台经销商电话轰炸企业家"搭售"卖酒:赚有钱人的钱

头条要闻

茅台经销商电话轰炸企业家"搭售"卖酒:赚有钱人的钱

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
房产
健康
公开课
军事航空

亲子要闻

幼儿园萌娃豪迈舞英歌!深圳这场传统文化节太惊艳

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

尝试干细胞疗法如何避免踩坑?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版