网易首页 > 网易号 > 正文 申请入驻

OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

0
分享至



机器之心报道

编辑:Panda

前些天,OpenAI 少见地 Open 了一回,发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。

但是,这两个模型都是推理模型,OpenAI 并未发布未经强化学习的预训练版本 gpt-oss 基础模型。然而,发布非推理的基础模型一直都是 AI 开源 / 开放权重社区的常见做法,DeepSeek、Qwen 和 Mistral 等知名开放模型皆如此。

近日,Cornell Tech 博士生、Meta 研究员 Jack Morris 决定自己动手填补这一空白。

他昨天在 上表示已经搞清楚了如何撤销 gpt-oss 模型的强化学习,让其回退成基础模型。他还宣布将在今天发布他得到的基础模型。



就在刚刚,他兑现了自己的承诺,发布了gpt-oss-20b-base



模型地址:https://huggingface.co/jxm/gpt-oss-20b-base

该模型一发布就获得了大量好评。



据介绍,该模型基于 gpt-oss-20b 混合专家模型 —— 使用低秩适应(LoRA)将其微调成了一个基础模型。

不同于 OpenAI 发布的 gpt-oss 模型,gpt-oss-20b-base 是基础模型,可用于生成任意文本。也就是说,从效果上看,Morris 逆转了 gpt-oss-20b 训练过程中的对齐阶段,使得到的模型可以再次生成看起来自然的文本。如下对比所示。



但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。



研究者还测试了 gpt-oss-20b-base 的记忆能力。他表示:「我们可以使用来自有版权材料的字符串提示模型,并检查它的输出,这样就能轻松测试 gpt-oss 的记忆能力。」结果,他发现 gpt-oss 记得 6 本被测书籍中的 3 本。他说:「gpt-oss 绝对看过《哈利・波特》。」



gpt-oss-20b-base 的诞生之路

Jack Morris 也在 上分享了自己从灵感到炼成 gpt-oss-20b-base 的经历。

他介绍说自己此前使用的方法是「越狱(jailbreaking)」,但这个思路是错误的。于是,他想寻找一个可以诱使模型变回基础模型的提示词 —— 但这很难。



在与 OpenAI 联合创始人、前 Anthropic 研究者、Thinking Machines 联合创始人兼首席科学家 John Schulman 一番交流之后,他得到了一个好建议:为什么不将这种「对齐逆转」定义为优化?

也就是说「可以使用网络文本的一个子集来搜索最小可能的模型更新,使 gpt-oss 表现为基础模型」。

这涉及到两个原理。

原理 1. 低秩性(Low-rankedness)

普遍的观点是,预训练是将所有信息存储在模型权重中,而对齐 / 强化学习只是将输出分布集中在有利于对话(和推理)的非常狭窄的输出子集上。如果这是真的,那么 gpt-oss 模型与其原始预训练模型权重相比,其实只进行了少量更新。

也就是说:在预训练方向上存在一些足够低秩的更新,而这些更新就可以「逆转」后训练过程。

原理 2:数据不可知性(Data Agnosticism)

此外,需要明确,Morris 想要的是恢复原始模型的能力,而不是继续对其进行预训练。这里并不想要模型学习任何新内容,而是希望它重新具备自由的文本生成能力。

所以,只要数据与典型的预训练类似,使用什么数据都没关系。Morris 表示选择 FineWeb 的原因是它的开放度相对较高,加上他已经下载了。他表示只使用了大约 20,000 份文档。

因此实际上讲,他的做法就是将一个非常小的低秩 LoRA 应用于少数几个线性层,并使用

... 形式的数据进行训练,就像典型的预训练一样。



具体技术上,Morris 表示,gpt-oss-20b-base 是原始 gpt-oss-20b 模型的 LoRA 微调版本。为了确保尽可能低的秩,他仅对第 7、15 和 23 层的 MLP 层进行了微调。至于 LoRA,他使用了 16 的秩,因此总共有 60,162,048 个可训练参数,占原始模型 20,974,919,232 个参数的 0.3%。他已将所有参数合并回去,因此用户可以将此模型视为完全微调的模型 —— 这使得它在大多数用例中都更有用。

该模型以 2e-6 的学习率和 16 的批次大小在 FineWeb 数据集中的样本上进行了 1500 步微调。其最大序列长度为 8192。

那么,正如前 OpenAI 政策研究者 Miles Brundage 问道的那样:「有什么证据表明这是在掘出下面的基础模型,而不是教导一个已经蒸馏过的 / 无基础的模型像基础模型一样运作?」



Morris 解释说:「理论上讲,因为这个更新的秩很低。而从实践上看,是因为生成结果与训练数据无关。例如,我没有训练模型输出《哈利・波特》,但它却不知怎的知道其内容。」

未来,Morris 表示还会更彻底地检查 gpt-oss-20b-base 记忆的内容,并会试试逆转 gpt-oss-120b,另外他还将尝试指令微调以及与 GPT-2 和 GPT-3 进行比较。



对于该项目你怎么看?会尝试这个模型吗?

https://x.com/jxmnop/status/1955099965828526160

https://x.com/jxmnop/status/1955436067353502083

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
封杀成功了,赖清德被催下台,国民党投关键票,傅崐萁率党团反攻

封杀成功了,赖清德被催下台,国民党投关键票,傅崐萁率党团反攻

文史旺旺旺
2025-11-18 20:18:06
李宗仁指挥台儿庄大捷歼敌万余,老蒋大为震惊:你能指挥杂牌军?

李宗仁指挥台儿庄大捷歼敌万余,老蒋大为震惊:你能指挥杂牌军?

云霄纪史观
2025-11-18 09:57:10
云南省发布省管干部任前公示公告 13名同志拟任新职

云南省发布省管干部任前公示公告 13名同志拟任新职

掌上春城
2025-11-18 07:36:14
西贝回应门店一线全员涨薪:平均涨500元 遭网暴和极端辱骂者可领“委屈奖”补贴

西贝回应门店一线全员涨薪:平均涨500元 遭网暴和极端辱骂者可领“委屈奖”补贴

每日经济新闻
2025-11-18 18:43:38
每天吃一个鸡蛋错了?医生再次提醒:60岁后,吃鸡蛋注意这4点

每天吃一个鸡蛋错了?医生再次提醒:60岁后,吃鸡蛋注意这4点

全球军事记
2025-11-19 16:29:13
欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

正经的烧杯1
2025-11-14 21:09:14
欠薪风波发酵!若四川退出,CBA恐直接扩增3支球队,香港金牛在列

欠薪风波发酵!若四川退出,CBA恐直接扩增3支球队,香港金牛在列

弄月公子
2025-11-19 19:33:14
下半年首场寒潮进入尾声 多地最高气温累计升幅将达10℃左右

下半年首场寒潮进入尾声 多地最高气温累计升幅将达10℃左右

极目新闻
2025-11-19 19:40:19
“双手插兜”照片火遍全网,快来看日本网民大破防

“双手插兜”照片火遍全网,快来看日本网民大破防

这里是东京
2025-11-19 17:09:09
国家终于不再原谅王濛,77枚金牌不是万能,狂妄自大只会被抛弃

国家终于不再原谅王濛,77枚金牌不是万能,狂妄自大只会被抛弃

凡知
2025-07-29 02:12:19
076突然掉头返航,美军发现问题不对!

076突然掉头返航,美军发现问题不对!

星辰故事屋
2025-11-19 14:03:19
黄埔将领李天霞,一生投机害友,三次坐牢,最终机关算尽凄凉而亡

黄埔将领李天霞,一生投机害友,三次坐牢,最终机关算尽凄凉而亡

黑句本
2025-11-19 20:20:00
已确认!是著名演员周润发

已确认!是著名演员周润发

吉刻新闻
2025-11-19 11:15:36
中国联合国大使发声:日本没资格当安理会常任理事国,引发关注

中国联合国大使发声:日本没资格当安理会常任理事国,引发关注

一个有灵魂的作者
2025-11-19 20:04:26
中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

等风来育儿联盟
2025-08-01 12:21:35
广州女子留600万遗产,银行:除非本人签字才能给,儿子做法解气

广州女子留600万遗产,银行:除非本人签字才能给,儿子做法解气

不易一字
2025-03-12 17:32:44
医生怒斥:别再拿这些瓶子装东西了,患癌再后悔就晚了!赶紧扔掉

医生怒斥:别再拿这些瓶子装东西了,患癌再后悔就晚了!赶紧扔掉

肿瘤的真相与误区
2025-11-19 20:08:25
4-2神剧情 命运5次互换 补时绝杀 FIFA第38掀翻小组第1晋级世界杯

4-2神剧情 命运5次互换 补时绝杀 FIFA第38掀翻小组第1晋级世界杯

狍子歪解体坛
2025-11-19 06:36:11
解放军警告日本:高市早苗再不明白就让你明白明白

解放军警告日本:高市早苗再不明白就让你明白明白

极目新闻
2025-11-19 18:15:42
央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

39健康网
2025-11-16 20:35:40
2025-11-19 21:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
数码
房产
健康
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

数码要闻

为企业而生 新一代鸿蒙电脑及鸿蒙电脑企业版将开启商用PC新格局

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

警惕超声报告这六大"坑"

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版