网易首页 > 网易号 > 正文 申请入驻

OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

0
分享至



机器之心报道

编辑:Panda

前些天,OpenAI 少见地 Open 了一回,发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。

但是,这两个模型都是推理模型,OpenAI 并未发布未经强化学习的预训练版本 gpt-oss 基础模型。然而,发布非推理的基础模型一直都是 AI 开源 / 开放权重社区的常见做法,DeepSeek、Qwen 和 Mistral 等知名开放模型皆如此。

近日,Cornell Tech 博士生、Meta 研究员 Jack Morris 决定自己动手填补这一空白。

他昨天在 上表示已经搞清楚了如何撤销 gpt-oss 模型的强化学习,让其回退成基础模型。他还宣布将在今天发布他得到的基础模型。



就在刚刚,他兑现了自己的承诺,发布了gpt-oss-20b-base



模型地址:https://huggingface.co/jxm/gpt-oss-20b-base

该模型一发布就获得了大量好评。



据介绍,该模型基于 gpt-oss-20b 混合专家模型 —— 使用低秩适应(LoRA)将其微调成了一个基础模型。

不同于 OpenAI 发布的 gpt-oss 模型,gpt-oss-20b-base 是基础模型,可用于生成任意文本。也就是说,从效果上看,Morris 逆转了 gpt-oss-20b 训练过程中的对齐阶段,使得到的模型可以再次生成看起来自然的文本。如下对比所示。



但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。



研究者还测试了 gpt-oss-20b-base 的记忆能力。他表示:「我们可以使用来自有版权材料的字符串提示模型,并检查它的输出,这样就能轻松测试 gpt-oss 的记忆能力。」结果,他发现 gpt-oss 记得 6 本被测书籍中的 3 本。他说:「gpt-oss 绝对看过《哈利・波特》。」



gpt-oss-20b-base 的诞生之路

Jack Morris 也在 上分享了自己从灵感到炼成 gpt-oss-20b-base 的经历。

他介绍说自己此前使用的方法是「越狱(jailbreaking)」,但这个思路是错误的。于是,他想寻找一个可以诱使模型变回基础模型的提示词 —— 但这很难。



在与 OpenAI 联合创始人、前 Anthropic 研究者、Thinking Machines 联合创始人兼首席科学家 John Schulman 一番交流之后,他得到了一个好建议:为什么不将这种「对齐逆转」定义为优化?

也就是说「可以使用网络文本的一个子集来搜索最小可能的模型更新,使 gpt-oss 表现为基础模型」。

这涉及到两个原理。

原理 1. 低秩性(Low-rankedness)

普遍的观点是,预训练是将所有信息存储在模型权重中,而对齐 / 强化学习只是将输出分布集中在有利于对话(和推理)的非常狭窄的输出子集上。如果这是真的,那么 gpt-oss 模型与其原始预训练模型权重相比,其实只进行了少量更新。

也就是说:在预训练方向上存在一些足够低秩的更新,而这些更新就可以「逆转」后训练过程。

原理 2:数据不可知性(Data Agnosticism)

此外,需要明确,Morris 想要的是恢复原始模型的能力,而不是继续对其进行预训练。这里并不想要模型学习任何新内容,而是希望它重新具备自由的文本生成能力。

所以,只要数据与典型的预训练类似,使用什么数据都没关系。Morris 表示选择 FineWeb 的原因是它的开放度相对较高,加上他已经下载了。他表示只使用了大约 20,000 份文档。

因此实际上讲,他的做法就是将一个非常小的低秩 LoRA 应用于少数几个线性层,并使用

... 形式的数据进行训练,就像典型的预训练一样。



具体技术上,Morris 表示,gpt-oss-20b-base 是原始 gpt-oss-20b 模型的 LoRA 微调版本。为了确保尽可能低的秩,他仅对第 7、15 和 23 层的 MLP 层进行了微调。至于 LoRA,他使用了 16 的秩,因此总共有 60,162,048 个可训练参数,占原始模型 20,974,919,232 个参数的 0.3%。他已将所有参数合并回去,因此用户可以将此模型视为完全微调的模型 —— 这使得它在大多数用例中都更有用。

该模型以 2e-6 的学习率和 16 的批次大小在 FineWeb 数据集中的样本上进行了 1500 步微调。其最大序列长度为 8192。

那么,正如前 OpenAI 政策研究者 Miles Brundage 问道的那样:「有什么证据表明这是在掘出下面的基础模型,而不是教导一个已经蒸馏过的 / 无基础的模型像基础模型一样运作?」



Morris 解释说:「理论上讲,因为这个更新的秩很低。而从实践上看,是因为生成结果与训练数据无关。例如,我没有训练模型输出《哈利・波特》,但它却不知怎的知道其内容。」

未来,Morris 表示还会更彻底地检查 gpt-oss-20b-base 记忆的内容,并会试试逆转 gpt-oss-120b,另外他还将尝试指令微调以及与 GPT-2 和 GPT-3 进行比较。



对于该项目你怎么看?会尝试这个模型吗?

https://x.com/jxmnop/status/1955099965828526160

https://x.com/jxmnop/status/1955436067353502083

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现5症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现5症状

蜉蝣说
2026-02-09 14:40:53
微博之夜过后,终于意识到内娱真的完了

微博之夜过后,终于意识到内娱真的完了

娱乐圈笔娱君
2026-02-09 14:29:12
山东今晚雨夹雪有所调整,春节天气展望,下的早是雪下的晚是雨

山东今晚雨夹雪有所调整,春节天气展望,下的早是雪下的晚是雨

夜深爱杂谈
2026-02-09 18:18:22
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
“情况罕见”!台湾桃园机场10分钟内3个航班发出“Mayday”求救信号

“情况罕见”!台湾桃园机场10分钟内3个航班发出“Mayday”求救信号

环球网资讯
2026-02-09 09:06:06
女杀手暗杀俄中将后逃3700公里终暴露

女杀手暗杀俄中将后逃3700公里终暴露

岁暮的归南山
2026-02-09 11:53:58
读懂《滕王阁序》的这10句名言,就可以笑对人生

读懂《滕王阁序》的这10句名言,就可以笑对人生

诗词世界
2026-02-08 06:06:48
从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

青眼财经
2026-02-07 22:22:53
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
印度前陆军参谋长爆大瓜!加勒万河谷的真相,莫迪瞒了全世界6年

印度前陆军参谋长爆大瓜!加勒万河谷的真相,莫迪瞒了全世界6年

历史小破站
2026-02-08 07:00:08
U17国足狂胜亚洲杯二档强队!引越媒关注,印尼队主帅承认路很长

U17国足狂胜亚洲杯二档强队!引越媒关注,印尼队主帅承认路很长

足球大腕
2026-02-09 11:39:40
CBA最新消息!北京首钢报价NBA后卫,山东男篮调整外援

CBA最新消息!北京首钢报价NBA后卫,山东男篮调整外援

体坛瞎白话
2026-02-09 18:07:05
央视电影活动名场面!明星站位太讲究,朱一龙让位,易烊千玺C位

央视电影活动名场面!明星站位太讲究,朱一龙让位,易烊千玺C位

萌神木木
2026-02-09 18:27:56
特朗普抨击“Bad Bunny超级碗中场秀表演”:史上最差之一,没人能听懂他在唱什么

特朗普抨击“Bad Bunny超级碗中场秀表演”:史上最差之一,没人能听懂他在唱什么

环球网资讯
2026-02-09 12:40:00
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
支付宝用户莫名背上12笔“网商贷” 网商银行仅退本金不退利息,谁办的咋办的说不清

支付宝用户莫名背上12笔“网商贷” 网商银行仅退本金不退利息,谁办的咋办的说不清

信网
2026-02-09 11:11:51
春节前大回暖!广东升温时间确定!

春节前大回暖!广东升温时间确定!

南粤女声
2026-02-09 10:16:13
哈登加盟骑士:超级巨星影响力引爆球衣销量纪录!

哈登加盟骑士:超级巨星影响力引爆球衣销量纪录!

田先生篮球
2026-02-08 20:01:43
新华社权威快报丨沪深北交易所宣布优化再融资一揽子措施

新华社权威快报丨沪深北交易所宣布优化再融资一揽子措施

新华社
2026-02-09 17:20:08
住久了才明白:装修的尽头是“柜子”,不是胡说,是过来人的经验

住久了才明白:装修的尽头是“柜子”,不是胡说,是过来人的经验

装修秀
2026-02-08 10:45:03
2026-02-09 19:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12275文章数 142564关注度
往期回顾 全部

科技要闻

马斯克终于想通了:先去月球“刷经验”

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

旅游
亲子
家居
游戏
公开课

旅游要闻

中国之城|黑龙江漠河:中国最北城市的极致浪漫

亲子要闻

萌娃爆笑模仿奶奶走路,小模样太可爱了

家居要闻

山院焕新 雅聚悦亲朋

三角洲逆战未来DNF鹅鸭杀碧蓝航线等,超3000个游戏红包封面,送了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版