网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南一县医院给30岁男患者输液,输成55岁女性患者的药;男患者:到第二瓶才发现,幸亏药是一样的,否则我就没命了

云南一县医院给30岁男患者输液,输成55岁女性患者的药;男患者:到第二瓶才发现,幸亏药是一样的,否则我就没命了

大风新闻
2026-06-30 18:04:03
罗永浩:我也不喜欢韩红说的“走个面儿”,但突然对她喊打喊杀,太流氓了

罗永浩:我也不喜欢韩红说的“走个面儿”,但突然对她喊打喊杀,太流氓了

观察者网
2026-06-30 16:37:17
“机器人伴侣”订单破1万台,仅限成人购买!Pro版16.98万,Ultra男女版各99万、88万,公司CEO回应:量产、技术难度较高

“机器人伴侣”订单破1万台,仅限成人购买!Pro版16.98万,Ultra男女版各99万、88万,公司CEO回应:量产、技术难度较高

每日经济新闻
2026-06-30 21:08:04
言论惹巨大争议!美国高官:伊朗队出局太高兴了,我唱歌跳舞庆祝

言论惹巨大争议!美国高官:伊朗队出局太高兴了,我唱歌跳舞庆祝

全景体育V
2026-06-30 12:36:20
女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

女护士与“银行男子”开房,被医院认为涉嫌卖淫开除;法院:可能是恋人行为,赔偿11万余元

大风新闻
2026-06-30 19:17:49
悲情?荷兰近3届世界杯均在点球战被淘汰出局!92年12次参赛仍0冠

悲情?荷兰近3届世界杯均在点球战被淘汰出局!92年12次参赛仍0冠

我爱英超
2026-06-30 11:58:50
永远不要和孩子协商玩手机的规则!3个原因告诉你为什么

永远不要和孩子协商玩手机的规则!3个原因告诉你为什么

起喜电影
2026-06-30 11:45:11
将新疆贪腐厅官拉下马后,举报人因“敲诈勒索”等获刑6年10个月

将新疆贪腐厅官拉下马后,举报人因“敲诈勒索”等获刑6年10个月

塔子山评说
2026-06-30 15:30:05
世界杯“点球之王”爆冷出局!德国曾在12码罚球点“打遍群雄无敌手”

世界杯“点球之王”爆冷出局!德国曾在12码罚球点“打遍群雄无敌手”

上游新闻
2026-06-30 13:32:37
电吸门夹断手指,车主获赔190万!

电吸门夹断手指,车主获赔190万!

电动知家
2026-06-30 12:11:27
不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

健身狂人
2026-06-30 15:31:05
华东理工大学机械与动力工程学院原副院长安琦逝世,享年63岁

华东理工大学机械与动力工程学院原副院长安琦逝世,享年63岁

澎湃新闻
2026-06-30 09:34:26
中国空调“爆卖”欧洲:市场受欢迎程度超预期,中欧班列紧急补货

中国空调“爆卖”欧洲:市场受欢迎程度超预期,中欧班列紧急补货

经济观察报
2026-06-30 17:43:32
世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

念洲
2026-06-30 11:55:27
莫兰特加盟后续:开拓者认定四大控卫能共存 克林根将不会被交易

莫兰特加盟后续:开拓者认定四大控卫能共存 克林根将不会被交易

罗说NBA
2026-06-30 13:14:47
韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

李晚书
2026-06-30 19:35:02
男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

男子在KTV饮酒后猝死,家属索赔143万;KTV和两名同饮者被判共赔偿58万,判决书披露详情

大风新闻
2026-06-30 18:04:02
无人机攻防正酣,乌克兰打算收手?

无人机攻防正酣,乌克兰打算收手?

新民晚报
2026-06-30 12:53:16
菲戈:如果一定要选一支最强的球队,我会选法国队

菲戈:如果一定要选一支最强的球队,我会选法国队

懂球帝
2026-06-30 20:25:15
未来5年,孩子上学有这些大变化!

未来5年,孩子上学有这些大变化!

安徽发布
2026-06-30 08:17:59
2026-06-30 22:55:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7414文章数 20759关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

家居
艺术
亲子
教育
时尚

家居要闻

传奇筑 日常诗

艺术要闻

一张白布一个背影,就让全世界藏家疯狂:这才是极简美学的天花板

亲子要闻

✨闪闪小葵花 成长正当时✨ 「寻找闪亮小主角」才艺展示活动 表演现场高光集锦,见证萌娃的舞台魅力~

教育要闻

中高考志愿填报防诈提醒 #中高考志愿填报 #阳光高考网 #志愿填报 #市场监管(记者 苏艺)

“复古波点”又流行回来了!夏天简单穿就很时髦

无障碍浏览 进入关怀版