网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果刘备夺得天下,首先会斩杀这3位功臣,诸葛亮是看破不说破

如果刘备夺得天下,首先会斩杀这3位功臣,诸葛亮是看破不说破

铭记历史呀
2026-05-31 00:51:26
法网第8日赛程:王曦雨生死战!对阵18号种子冲8强,再创新纪录?

法网第8日赛程:王曦雨生死战!对阵18号种子冲8强,再创新纪录?

刘姚尧的文字城堡
2026-05-31 10:02:46
4年来首次!乌克兰这回是真扛不住了?中国是时候考虑战后的事了

4年来首次!乌克兰这回是真扛不住了?中国是时候考虑战后的事了

漫步独行侠
2026-05-30 11:26:25
“铩羽而归”的“铩”不读“shà”,但读对的人没有几个!

“铩羽而归”的“铩”不读“shà”,但读对的人没有几个!

未央看点
2026-05-31 12:33:20
夏天来临,女神驾到

夏天来临,女神驾到

疾跑的小蜗牛
2026-05-30 20:58:40
活久见!车主要张雪书面保证,承诺车辆永不出问题,张雪怒怼发飙

活久见!车主要张雪书面保证,承诺车辆永不出问题,张雪怒怼发飙

火山詩话
2026-05-29 06:54:36
文班亚马将签下2.51亿肥约 3.01亿封顶

文班亚马将签下2.51亿肥约 3.01亿封顶

温柔且自由
2026-05-31 00:43:56
李刚仁缺席决赛,欧冠亚洲球员纪录仍空白

李刚仁缺席决赛,欧冠亚洲球员纪录仍空白

懂球帝
2026-05-31 12:15:07
买奥迪的男子身份被扒,三婚三孩三个妈,关注九千女主播急删4千

买奥迪的男子身份被扒,三婚三孩三个妈,关注九千女主播急删4千

观察鉴娱
2026-05-30 10:25:19
我供小叔子考上北大,他毕业后只汇款不回家,我去北京一看愣住了

我供小叔子考上北大,他毕业后只汇款不回家,我去北京一看愣住了

千秋文化
2026-05-18 20:02:10
广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

橙汁的味道123
2026-05-31 08:22:26
主角张嘉益再度携手儿子演新剧,15岁的他变得越来越帅气

主角张嘉益再度携手儿子演新剧,15岁的他变得越来越帅气

草莓解说体育
2026-05-31 12:03:01
女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红,曼妙身材圈粉无数,露脸后却遭恶评

捣蛋窝
2026-05-21 06:40:07
博主耿同学果然没闲着!他又开始举报了,湘雅医学院雷某首当其冲

博主耿同学果然没闲着!他又开始举报了,湘雅医学院雷某首当其冲

平老师666
2026-05-28 21:55:23
雷霆夏季运作猜想:拿杰伦威换字母哥? 向上交易选择小布泽尔?

雷霆夏季运作猜想:拿杰伦威换字母哥? 向上交易选择小布泽尔?

仰卧撑FTUer
2026-05-31 12:36:03
为什么有很多人连基本的常识都没有?网友:人无语的时候真的会笑

为什么有很多人连基本的常识都没有?网友:人无语的时候真的会笑

另子维爱读史
2026-05-22 20:43:04
新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

一网打尽全球焦点
2026-05-30 01:25:17
她刚吵完架,穿着内裤拍了一张照片,后来进了博物馆

她刚吵完架,穿着内裤拍了一张照片,后来进了博物馆

有态度网友ytd2993
2026-05-30 02:11:34
苏芒的维权之举引发争议!有博主站台,直言“其实她也挺无奈”

苏芒的维权之举引发争议!有博主站台,直言“其实她也挺无奈”

火山詩话
2026-05-29 09:43:36
著名世界古代史学家、南开大学教授王敦书逝世

著名世界古代史学家、南开大学教授王敦书逝世

澎湃新闻
2026-05-31 10:52:26
2026-05-31 13:35:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7319文章数 20755关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

解放军代表针对日本防卫大臣尖锐提问 对方未正面回应

头条要闻

解放军代表针对日本防卫大臣尖锐提问 对方未正面回应

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
教育
手机
亲子
军事航空

育碧经典《雷曼》系列起源与传奇两款游戏重制消息曝光

教育要闻

保姆级教程:2026山东高考打印准考证步骤+入口!

手机要闻

微软宣布下周携手英伟达开启PC新时代;苹果iPhone 18机模曝光

亲子要闻

禁止幼儿园采购汉堡、三明治等,饭菜烧熟到食用不得超2小时!

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版