网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

2023-11-04 13:47:32　来源: 量子位

北京举报

0

分享至

丰色克雷西发自凹非寺
量子位 | 公众号 QbitAI

GPT-3究竟是如何进化到GPT-4的？

字节给OpenAI所有大模型来了个“开盒”操作。

结果还真摸清了GPT-4进化路上一些关键技术的具体作用和影响。

比如：

SFT是早期GPT进化的推动者
帮助GPT提升编码能力的最大功臣是SFT和RLHF
在预训练中加入代码数据则提升了后续GPT版本的各方面能力，尤其是推理……

创业后忙得不可开交的AI大牛李沐看完，也久违地出现在公众视野，并给这项研究点了个赞。

网友们更是盛赞：

这是迄今为止第一个充分开盒OpenAI所有模型的工作，respect。

而除了一些新发现，它还坐实了一些已有猜想：

比如GPT-4在变笨并非危言耸听，这项评测发现GPT进化路上出现了明显的“跷跷板现象”，即模型进化过程中一部分能力提升另一部分下降。

这和网友此前的感受不谋而合。

如作者本人表示：

这项工作可以为GPT-3到GPT-4的演化路径提供宝贵的见解。

言外之意，通过它我们可以一窥GPT模型的“成功之道”，为接下来的大模型构建工作提供有效经验。

那么，具体它都“开”出了哪些东西，我们扒开论文来看。

探秘GPT-3到GPT-4进化之路

最开头的进化图由作者们根据公开信息总结得出。

可以看到，它标注了每一个中间模型是经过哪些技术（如代码微调、SFT/FeedME等）一路从最初的GPT-3进化到3.5再到如今的4。

这些技术具体起到了多大影响，从davinci到gpt-4-0613，字节对每代GPT的数学、编码、推理等7大能力全部测了个“底朝天”。

1. SFT：早期GPT进化的推动者

首先，在GPT-3系列中，最初的davinci(GPT-3)通过监督微调SFT和其变体FeedME进化为了text-davinci-001。

这让后者在几乎全部任务上都获得了性能提升：

更直观的表现如下图所示（“粉圈”为进化后的text-davinci-001）。

接着，GPT开始进入3.5系列，在该系列早期阶段，先是最基础的code-davinci002采用同样的技术进化成text-davinci-002。

然而这一进化操作的效果属实不大，GPT的各项性能只有少数几个提升，更多是不增反减的。

在此，作者引出他们的第一个结论，即：

SFT只在较弱的基础模型上管用，用在更强的模型上收效甚微。

类似现象在开源模型身上也可见（这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型）：

在初代Llama-65B之上，SFT成功提升了它在MMLU基准上的性能，但是，所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。

总结：在GPT3阶段，SFT技术对模型的进化起到了关键作用。

2、RLHF和SFT：编码能力提升的功臣

顺着GPT3.5系列接着看，从text-davinci-002开始，OpenAI开始引入新技术基于PPO算法的RLHF，得到text-davinci-003。

此时，它在大部分基准上的表现和前代模型持平或略变差，说明作用不是特别明显（在开源模型身上也是如此）。

但有一个除外：编码任务，最高足足增加了近30分。

联想到前面code-davinci002采用SFT技进化成text-davinci-002造成整体性能下降时，编码任务也没受影响，反而还涨分了——

作者决定验证SFT和RLHF对大模型编码能力的影响。

在此，他们测量了几代GPT模型的pass@1（采样1次通过的概率）、pass@100（采样100次通过的概率）等分数。

结果是与基础模型相比，使用了SFT和RLHF技术的模型在pass@1上出现了大幅提升，而在pass@100上略有下降。

这说明啥呢？

作者解释：

pass@100刻画的是模型内在coding能力，而pass@1代表的是模型一遍过、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在编码任务上和其它任务一样，仍然有所谓的对齐税（alignment tax）。

不过，SFT和RLHF能够将pass@100的能力学到pass@1上，即把内在能力（但需要很多次尝试）转化到一遍过、bug-free的coding能力，致使pass@1大幅提升。

而再仔细看结果，可以发现gpt-3.5-turbo-0301通过SFT和RLHF，大幅提升了pass@1，这对于小模型的性能优化是个好消息。

这还没完，鉴于作者之前观察到GPT-4在一些复杂推理任务上经过多次尝试才能解决问题。

他们结合上面的观察，总结为：
LLM仍可以通过SFT和RLHF，不断将内在能力（但需要多次尝试）转化成一次性解决问题的能力，不断逼近LLM的能力上限。

言外之意，GPT-4还可以更强。

3、代码加入预训练，对推理帮助最大

在GPT4进化之路上，还出现了2个特别的模型：

code-cushman-001(Codex-12B)和code-davinci-002。

前者是OpenAI初次尝试使用代码数据训练模型，尽管它的规模较小，但也取得了不错的代码能力。

后者是GPT3.5的基座模型，它是在GPT3的基础上使用RLHF+代码训练的结果，也就是文本和代码混合预训练。

可以看到，它大幅超越GPT-3（不止是编码能力）、在一些推理任务上（如BBH）表现甚至可以超过后面的gpt-3.5-turbo-0613。

作者表示：

这表明预训练加入代码数据可以全面提升LLM的能力，尤其是推理能力。

4、“跷跷板”现象

通过比较2023年3月和2023年6月的OpenAI API模型，我们确实可以发现这一现象：

与gpt-3.5-turbo-0301相比，升级后的gpt-3.5-turbo-0613在HumanEval上表现出色（53.9 -> 80.0），但在MATH上却大幅下降（32.0 -> 15.0）。

gpt-4-0613在DROP上的表现优于gpt-4-0314(78.7 -> 87.2)，但在MGSM上也出现了直线下降(82.2 -> 68.7)。

作者认为：

“跷跷板现象”可能成为LLM通往AGI之路的绊脚石，因为AGI强调“通用智能”，要在所有task上都有优异的性能，要求模型不能“偏科”。

在此，他们也呼吁社区重视这个问题，共同推进大模型平衡发展的研究。

帮助大模型从业者找到方向

以上这些发现，全部基于GPT-Fathom——

字节最新提出的一个大模型评测工具。

想必大家肯定疑问：

大模型排行榜和评测工具已经有很多了，为什么还要提出一个新的方法？

作者介绍，相比已有的测评方式，GPT-Fathom尺度更加统一，结果具有可重现性。

大模型从业者可以借助它来明确自己与领先模型的差距到底在什么地方，从而有的放矢地完善自己的产品。

具体来看，GPT-Fathom主要是解决了其他大模型评测方法的三个不足：

setting标准不一致：是否使用思维链（CoT）、样本数量等设置，以及答案评价方法没有统一标准
模型和任务收集不完整：测试关注的能力不全面，缺乏对早期模型的关注
缺乏对模型敏感性的研究

为了更直观体现GPT-Fatham的特点，作者对比了一些具体的现有榜单，可以总结成下面这个表格：

其中，对敏感性的评测就发现了此前的测试标准没能找出的问题。

相比于GPT，其他模型对提示词的敏感度很高，稍有变化就会导致输出截然不同，提示其他模型的鲁棒性和GPT之前还存在很大差距。

比如在TriviaQA数据集上，提示词的细微改变就让Llama 2-70B的得分下降四分之一，而GPT系列模型则没有明显变化。

此外诸如CoT、样本数量以及采样方差等因素也都被包括进了敏感性测试当中。

未来，作者计划从能力种类、测试数据集和模型三个维度继续扩展GPT-Fathom，将支持多轮对话、多模态等能力的测评，以及增加对多个数据集和模型的测试。

GPT-Fatham的两位共同一作者分别是字节公司应用机器学习研究组的研究人员张驭宇（Yuyu Zhang）和实习生Shen Zheng。

Shen Zheng是伊利诺伊大学香槟分校（UIUC）的一名硕士生。

此外，字节公司的Yijie Zhu等四名研究人员，以及UIUC的Kevin Chen-Chuan Chang教授也参与了这项研究。

论文地址：
https://arxiv.org/abs/2309.16583
参考链接：
https://github.com/GPT-Fathom/GPT-Fathom

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

震撼！GPT-4 Turbo级国产大模型登场，周冠宇F1赛事数据秒分析惊呆国际大佬

新智元 2024-04-26 19:27:46
2 跟贴 2
奥特曼：GPT5性能远超GPT4，OpenAI不怕copy

华尔街见闻官方 2024-04-26 11:13:10
12 跟贴 12

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

量子位 2023-11-06 11:02:41
33 跟贴 33

AI信任危机之后，揭秘预训练如何塑造机器的「可信灵魂」

机器之心Pro 2024-04-25 10:27:37
0 跟贴 0
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0

普通人终于能感觉到大模型有啥用了

虎嗅APP 2023-11-02 19:01:48
114 跟贴 114

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

机器之心Pro 2024-03-25 16:09:30
0 跟贴 0
不分割成token，直接从字节中高效学习，Mamba原来还能这样用

机器之心Pro 2024-02-04 17:15:05
4 跟贴 4

“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
343 跟贴 343
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
0 跟贴 0
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0
「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

机器之心Pro 2024-03-07 15:09:59
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
6 跟贴 6
一哄而上，打不赢美国高科技

华商韬略 2024-03-14 10:07:05
3059 跟贴 3059
GPT-4V学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

量子位 2023-11-04 13:48:01
212 跟贴 212
1-0！雪藏贝林厄姆，19岁天才闪耀，皇马客场复仇，让巴萨绝望

我的护球最独特 2024-04-27 05:05:39
1281 跟贴 1281
中国国航：拟向商飞公司购买100架C919飞机

界面新闻 2024-04-26 19:58:31
47736 跟贴 47736
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
0 跟贴 0
布林肯二度访华，望不虚此行！他能带回什么？

新民晚报 2024-04-27 09:45:19
573 跟贴 573
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
669 跟贴 669
为什么恐龙上亿年都没进化出智慧，人类百万年就产生了文明？

宇宙时空 2024-04-26 15:39:20
48 跟贴 48
卢麒元停更！他的最大贡献在于唤醒民众，把一些人拉下了神坛

大风文字 2024-04-26 18:20:48
9668 跟贴 9668
后Sora时代，CV从业者如何选择模型？卷积还是ViT

机器之心Pro 2024-02-18 16:18:40
0 跟贴 0
丽水拟出让微小宅地：个人可独立或联合建房，建成后可办产证可出售

澎湃新闻 2024-04-26 17:02:37
18806 跟贴 18806
华为带头做分级，车展之后，25万元以下智能驾驶将降级？

路咖汽车 2024-04-25 15:58:46
9 跟贴 9
记者实测苹果手机输入"发现石油"会自动定位:安卓也是

南方都市报 2024-04-25 08:08:16
8293 跟贴 8293
超级威猛：斯佳辉连轰四杆50+，强势冲击八强！2-2暂时打平琼斯！

金木原创 2024-04-26 18:49:34
85 跟贴 85
爷爷临终前在监控下叫孙女名字：小林啊明天我要走了

爆料视频 2024-04-27 08:05:20
3401 跟贴 3401
汽车以旧换新补贴实施细则公布最高补贴1万元

界面新闻 2024-04-26 16:46:03
9785 跟贴 9785
外媒：如果法律途径无效，字节宁愿在美国关闭TikTok也不愿出售

凤凰网财经plus 2024-04-26 10:30:34
833 跟贴 833
进一步规范电动自行车充电停放！本市发布出台《电动自行车集中充电和停放场所设计标准》

上观新闻 2024-04-27 08:08:10
324 跟贴 324
宇宙可能是一个骗局？人类所了解到的知识，可能只是外星人的投影

探索宇宙百科 2024-04-24 21:26:26
12 跟贴 12
火爆预警，史上最忙！消费者傻眼：价格竟然临时跳水？上海出发仍可“捡漏”，低至3折→

上观新闻 2024-04-27 11:28:51
348 跟贴 348
俄罗斯冻结美国最大银行在俄资产！乌方：俄乌冲突以来已获得854亿美元财政援助

每日经济新闻 2024-04-27 00:24:09
3 跟贴 3
网易号平台每日辟谣公告（四月二十七日第一则）

网易号官方平台 2024-04-27 11:54:00
591 跟贴 591
工信部：拟禁用电动自行车车载充电器，完善 13 位充电器编码

IT之家 2024-04-25 13:53:21
1045 跟贴 1045
28岁华人Meta软件工程师辞去37万美元工作，理由竟是

新智元 2023-11-05 12:49:48
0 跟贴 0
广东省卫生健康委原党组书记、主任段宇飞接受审查调查

界面新闻 2024-04-26 08:36:29
953 跟贴 953
南京拟放宽落户条件买房可直接落户

财联社 2024-04-26 19:38:17
11020 跟贴 11020
5月初奔月嫦娥六号完成垂直转运

央视新闻客户端 2024-04-27 10:34:02
2565 跟贴 2565

突发讣告！知名网红在温州离世

住温网

2024-04-27 14:08:02

男友一直问“**了么”，那到底是什么感觉？

男友一直问“**了么”，那到底是什么感觉？

性学研究僧

2024-04-18 11:04:52

德媒：阿根廷调查中国太空基地，下赌注美西方帮助收回马岛

德媒：阿根廷调查中国太空基地，下赌注美西方帮助收回马岛

良探长娱乐

2024-04-27 12:14:22

哈马斯：永久停火是前提，美方施压无意义

哈马斯：永久停火是前提，美方施压无意义

直新闻

2024-04-26 13:54:59

《长相思2》终来了？杨紫发文：用叛逆证明我存在！

《长相思2》终来了？杨紫发文：用叛逆证明我存在！

默默有话说

2024-04-27 13:11:52

高层终于动真格了，刚传来3大消息，将掀起行情及板块滔天巨浪！

高层终于动真格了，刚传来3大消息，将掀起行情及板块滔天巨浪！

彩云的夕阳

2024-04-27 12:47:28

美议员扎堆前往哥伦比亚大学

环球时报国际

2024-04-25 05:29:36

德国防长：俄罗斯武器已堆满仓库！美国利用援乌拨款提高军工产能

德国防长：俄罗斯武器已堆满仓库！美国利用援乌拨款提高军工产能

鹰眼Defence

2024-04-26 18:30:26

公公举报干部出轨儿媳，露骨聊天记录曝光，是儿媳主动，照片曝光

公公举报干部出轨儿媳，露骨聊天记录曝光，是儿媳主动，照片曝光

古希腊掌管松饼的神

2024-04-26 21:25:16

清凉峰一男一女后续：知情人透露两人关系，老公两次发声引群嘲

清凉峰一男一女后续：知情人透露两人关系，老公两次发声引群嘲

影孖看世界

2024-04-26 18:58:40

李念生三胎后变清闲，长居香港没进组拍戏，去玩不带娃，有空打扮

李念生三胎后变清闲，长居香港没进组拍戏，去玩不带娃，有空打扮

欢乐大意

2024-04-26 23:19:03

为啥有人非要买日系车？这恐怕是全网最贴切的两个原因

为啥有人非要买日系车？这恐怕是全网最贴切的两个原因

阿珂谈汽车

2024-04-26 15:05:26

为什么男人偷情会上瘾，女人偷情却……

为什么男人偷情会上瘾，女人偷情却……

闻心品阁

2024-04-27 09:15:08

苏群的过激言论惹众怒，遭到篮球名宿，知名媒体人，球迷等人批评

苏群的过激言论惹众怒，遭到篮球名宿，知名媒体人，球迷等人批评

小豆豆赛事

2024-04-27 07:55:19

电动自行车有望入户充电了，比亚迪的新款电池，续航500km不自燃

电动自行车有望入户充电了，比亚迪的新款电池，续航500km不自燃

阿珂谈汽车

2024-04-26 14:53:55

小米公布 SU7 车型 5 月购车权益：Nappa 真皮座椅/增强智驾功能

小米公布 SU7 车型 5 月购车权益：Nappa 真皮座椅/增强智驾功能

IT之家

2024-04-27 10:50:08

再续前缘？深圳男篮阵容大清理，周鹏被弃用，朱芳雨会签回他吗？

再续前缘？深圳男篮阵容大清理，周鹏被弃用，朱芳雨会签回他吗？

最爱生活汇

2024-04-27 14:03:48

“辛苦但无用”的节俭行为，看完破防了，全都是贫穷家庭的通病！

“辛苦但无用”的节俭行为，看完破防了，全都是贫穷家庭的通病！

娱乐洞察点点

2024-04-24 20:55:38

震惊我！汪峰居然秃着后脑勺去看车展了！笑晕在网友的评论区里！

震惊我！汪峰居然秃着后脑勺去看车展了！笑晕在网友的评论区里！

小娱乐悠悠

2024-04-27 09:13:17

7场0进球，国安引援失误，靠沉寂3年强援爆发古加不值得浪费名额

7场0进球，国安引援失误，靠沉寂3年强援爆发古加不值得浪费名额

替补席看球

2024-04-27 15:23:02

追踪人工智能动态

9325文章数 175242关注度

往期回顾全部

科技要闻

特斯拉这款车型刚上市几天，就上调价格

头条要闻

43岁抗癌网红去世：曾是医生如今留下2名幼子

头条要闻

43岁抗癌网红去世：曾是医生如今留下2名幼子

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富海狮 07EV正式到店

态度原创

家居

健康

亲子

旅游

公开课

家居要闻

光影之间空间暖意打造生活律动

这2种水果可降低高血压死亡风险

亲子要闻

打完针的小朋友哭闹，得到棒棒糖后的表情亮了

旅游要闻

散装河北，冀北、冀东、冀中、冀南如何划分？

公开课

睡前进食会让你发胖吗？

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版