网易首页 > 网易号 > 正文 申请入驻

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

离开OpenAI后,他们俩把ChatGPT后训练方法做成了PPT,还公开了~

正如网友所言,可能没有人比他俩更了解ChatGPT后训练的事儿。

毕竟,一位是OpenAI联合创始人,曾经也是OpenAI后训练共同负责人的John Schulman,另一位是曾经在OpenAI当后训练研究VP的Barret Zoph

John Schulman发推文称:

啊,我和Barret Zoph最近在斯坦福做了一场关于后训练以及分享开发ChatGPT经验的演讲,可惜没被录下来,但我们有PPT。

顺便又全网寻录音/视频“如果你有录音,请告诉我!”

网友不语,只是一味点赞收藏。

有曾在现场的网友亲证,演讲质量真不戳。

还有网友在感谢完俩人后想要更多:

如果能分享更多关于训练后阶段的最新进展,比如推理模型、DeepSeek RL等,那就太好了。

这次先来看看PPT长啥样~

ChatGPT后训练方法PPT版

先是自我介绍。

Barret Zoph和John Schulman曾在OpenAI共同担任后训练联合负责人,从2022年9月开始合作,主要目标是开发一个对齐的聊天机器人,最初的团队被称为“RL”,只有少数几个人。

接着介绍了后训练(Post-Training)阶段是什么:

后训练阶段是模型开发的最后一步,目的是让模型更像一个助手,遵循特定格式,并确保其适合实际生产环境,这一阶段通常与产品团队紧密合作。

用几个具体例子,对比基础模型和后训练模型的区别:

后训练VS预训练总的来说:

计算资源需求更低,迭代周期更快;使用基于人类反馈的强化学习(RLHF);教模型使用工具;塑造模型个性;引入拒绝/安全行为;行为严重依赖预训练阶段的泛化能力。

后训练包含三个主要组成部分:监督微调(SFT)、奖励模型(RM)训练、强化学习(RL)。

以下是三个组成部分的具体介绍:

随后回顾了ChatGPT和OpenAI后训练的早期发展历程。

包括GPT-3、GPT-3.5的发布、RL团队的工作、GPT-4的准备过程、决定发布ChatGPT的细节以及发布后意外成功,实现病毒式传播。

ChatGPT曾一度被大批涌来的用户挤崩:

随时间推移,ChatGPT模型和功能逐渐更加复杂和多样化:

2022年12月最初版本和2025年1月版本的对比:

添加了许多功能:

然后讲了在功能扩展和公司规模增长的背景下,如何通过主线模型(mainline model)设置来整合变化并降低风险,包括在较小规模上测试;在频繁的更新中逐步整合更改,如果发现问题能够迅速回滚到之前的版本。

在这当中也出现了一些失误和挑战……

比如模型在生成文本时出现了很多拼写错误。

强化学习(RL)后发现拼写错误率有所上升,在监督微调(SFT)数据集中发现了拼写错误的提示。

最终通过对比过程改进,将两个生成的文本(completion 1和completion 2)进行比较,选择改进后的版本,专家会对比这两个文本,有时会写出改进后的版本。

此外还有过度拒绝的情况。

早期的拒绝行为过于冗长:

有一些方法比如通过改变时态,可以绕过模型的拒绝机制。

俩人随后讲解了为何拒绝行为难以处理,有边界问题和人类数据问题。

解决方案包括配对数据、有针对性的边界示例、对标注数据进行分层处理。

另外,模型还会出现偏见。

还可能会生成虚假或误导性的内容。

在涉及品味、主观性和高投入的任务中,如何获取高质量人类反馈也是一大挑战。

通过人类与AI团队协作进行标注是解决方案之一。

他们还探讨了不同来源的人类反馈在提示多样性、标签质量、领域、正确性、意图和合规性等方面的优缺点,并提出了如何利用它们各自优势问题。

而要让模型按照我们的意愿行事,第一步是弄清楚我们想要什么。

俩人表示这一步出乎意料的难,要明确规范。

OpenAI2024年5月发布了模型规范。

还有一个开放性问题,如何保持模型多样性和趣味性。

两人提到通过后训练迭代和模型蒸馏来保持或强化这些特性。

总结了以InstructGPT、Llama 3.1等为代表的“两个时代”的模型训练流程,包括从基础模型到对齐模型的训练步骤,最终目标是生成一个经过多次优化的对齐模型。

提出了一个开放性问题,探讨如何在模型训练和优化过程中恢复并保持基础模型中的多样性和趣味性,包括不同的风格和世界观。

最后他们推荐了一些关于后训练的论文和blog:

俩人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph离开OpenAI后,现在都在干什么——

被曝双双加入了OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。

Mira Murati去年9月官宣离职OpenAI,离职后不久,就在10月份,她被曝筹备新公司/AI实验室,吸金超1亿美元。

Mira Murati已经挖到了20多位顶尖研究员和工程师投奔,都是来自OpenAI、谷歌、Anthropic等巨头。

这其中就包括Jonathan Lachman和Barret Zoph。

John Schulman去年8月离开的OpenAI,先是加入了OpenAI竞争对手Anthropic,致力于LLM的对齐工作,短短六个月后再次离职,加入了Murati的创业项目,担任首席科学家。

至于Barret Zoph,去年9月份和Mira Murati几乎同时离职,随后就加入了Mira Murati的团队,担任CTO。


[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

沧海旅行家
2026-03-26 16:37:46
穿越时空的检测报告,黄天鹅的危机公关简直是教科书级的反面教材

穿越时空的检测报告,黄天鹅的危机公关简直是教科书级的反面教材

鲁先生的笔
2026-03-26 20:58:41
问界M6:离爆款还远,离焦虑更近

问界M6:离爆款还远,离焦虑更近

ZAKER新闻
2026-03-25 22:49:46
理解城市 | 开封文旅原来这样“火”

理解城市 | 开封文旅原来这样“火”

澎湃新闻
2026-03-26 12:58:34
美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

观察者网
2026-03-25 14:58:54
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

朗威谈星座
2026-03-25 17:12:14
终身追捕,台独赖清德末路难逃!美情报界交底:大陆或将兵不血刃

终身追捕,台独赖清德末路难逃!美情报界交底:大陆或将兵不血刃

神祗与歌
2026-03-25 15:24:19
家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

观察鉴娱
2026-03-21 12:39:12
华为首款旗舰MPV!后轮转向,综合续航1250km+,智界V9一炮而红

华为首款旗舰MPV!后轮转向,综合续航1250km+,智界V9一炮而红

隔壁说车老王
2026-03-26 08:12:16
机场来伊份小蛋糕卖43元一个?品牌客服:实为43元一斤,机场门店价格高于一般门店

机场来伊份小蛋糕卖43元一个?品牌客服:实为43元一斤,机场门店价格高于一般门店

极目新闻
2026-03-26 21:17:27
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

洲洲影视娱评
2026-01-28 12:23:18
土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

红星新闻
2026-03-26 17:20:06
内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

参考消息
2026-03-26 15:47:05
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
2026-03-26 23:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版