网易首页 > 网易号 > 正文 申请入驻

研究员:逆向还原OpenAI模型为基础版

0
分享至

OpenAI最新的开源权重大语言模型家族gpt-oss在不到两周前以Apache 2.0许可证发布——这是该公司自2019年GPT-2以来首次发布开源权重模型——但公司外部的开发者已经开始对其进行改造。

最引人注目的例子来自康奈尔理工学院博士生、前谷歌大脑研究员、现任Meta研究员Jack Morris。本周,他推出了gpt-oss-20b-base,这是他对OpenAI较小版本gpt-oss-20B模型的重新改造版本,移除了模型的"推理"行为,将其还原为预训练的"基础"版本,提供更快速、更自由、更无审查和无约束的响应。

该模型现已在Hugging Face上以宽松的MIT许可证提供,允许用于研究和商业应用。

gpt-oss-20B-base与OpenAI的gpt-oss模型的区别

要理解Morris的做法,需要了解OpenAI的发布版本与AI研究人员所称的"基础模型"之间的区别。

大多数由OpenAI、Anthropic、谷歌以及Meta、DeepSeek、阿里巴巴Qwen团队等开源提供商提供的大语言模型都是"后训练"的。这意味着它们经过了额外阶段,接触了精心策划的期望行为示例。

8月5日OpenAI发布的gpt-oss模型是"推理优化"的:经过训练和微调,不仅能预测下一个词,还能以安全、一致的方式遵循指令,通常在产生最终答案之前通过结构化的"思维链"推理来分析问题。

基础模型则不同。它是大语言模型在应用推理特定对齐之前的原始预训练版本。基础模型只是试图根据之前的内容预测下一个文本块,没有内置的保护机制、风格偏好或拒绝行为。

Morris的目标是"逆转"OpenAI的对齐过程,将较小的gpt-oss-20B恢复到更接近其原始预训练状态的版本。

"我们基本上逆转了大语言模型训练的对齐部分,现在我们有了能再次产生自然文本的东西,"他在X线程中写道。"它不再进行思维链推理。它回到了只是预测通用文本中下一个Token的模型。"

如何从OpenAI的gpt-oss-20b中提取基础模型

Morris没有尝试用巧妙的提示来越狱模型——他说在早期实验中证明这种方法无效——而是在与前OpenAI联合创始人、前Anthropic研究员、现任Thinking Machines首席科学家John Schulman交谈后采取了不同的策略。

关键是将对齐逆转视为一个小型优化问题:如果模型的大部分预训练知识仍然存在于其权重中,那么可能只需要一个微小的低秩更新就能将其推回基础模型行为。

Morris通过对模型的三层——第7、15和23位置的MLP层——应用秩为16的LoRA(低秩适配器)更新来实现这一想法。这意味着训练大约6000万个参数,占模型210亿总参数的0.3%。他使用了FineWeb数据集中的约20000个文档,保持格式尽可能接近原始预训练风格。

Morris告诉VentureBeat,训练在八个NVIDIA H200 GPU上进行了四天,学习率为2e-6,批量大小为16,最大序列长度为8192个Token。

新gpt-oss-20b-base模型的行为差异

生成的gpt-oss-20b-base在输出上明显更自由。它不再默认逐步解释推理,会产生更广泛的响应,包括OpenAI对齐模型会拒绝给出的指令——如制造武器、列举粗话或计划非法活动。

在简短测试中,Morris发现它可以逐字复制版权作品的段落,包括他尝试的六个书籍摘录中的三个,显示一些记忆材料仍然可访问。

即便如此,一些对齐痕迹仍然存在。Morris指出,如果以助手风格格式提示模型,它有时仍会表现得像礼貌的聊天机器人。

基于OpenAI的gpt-oss家族发布

gpt-oss家族的首次亮相引起了相当大的关注。两个模型——gpt-oss-120B和gpt-oss-20B——是纯文本、多语言的,采用专家混合Transformer架构构建。它们以宽松的Apache 2.0许可证发布,允许无限制的本地使用、微调和商业部署。

这是OpenAI六年来首次发布开源权重版本,被广泛解读为对包括中国DeepSeek R1和Qwen 3在内的其他开源权重提供商竞争压力的回应。

开发者对最初gpt-oss的反应不一

开发者对OpenAI的gpt-oss模型的反应明显不一,从热情到失望都有。

支持者赞扬了宽松的许可证、效率和在STEM基准上的强劲表现。Hugging Face CEO Clem Delangue将该发布描述为"开放生态系统的有意义补充"。

批评者认为这些模型似乎在合成数据上进行了大量训练,使它们在数学和编程方面表现出色,但在创意写作、一般世界知识和多语言推理方面能力较弱。

在此背景下,Morris的gpt-oss-20b-base是开源权重模型如何在发布后几天内被改编和重新利用的具体例子。与OpenAI的gpt-oss收到的反应相比,Morris工作的大多数反响都是温暖和欣喜的。

Q&A

Q1:gpt-oss-20b-base模型是什么?它与原始模型有什么不同?

A:gpt-oss-20b-base是研究员Jack Morris对OpenAI的gpt-oss-20B模型进行改造后的版本,移除了"推理"行为,还原为预训练的"基础"版本。它不再进行思维链推理,回到了只预测下一个Token的状态,提供更快速、更自由、更无审查约束的响应。

Q2:Jack Morris是如何将推理模型逆向还原为基础模型的?

A:Morris采用了LoRA(低秩适配器)技术,只对模型三个层(第7、15、23位置的MLP层)进行微调,训练了约6000万个参数(占总参数的0.3%)。他使用FineWeb数据集中的2万个文档,在8个NVIDIA H200 GPU上训练了4天,成功逆转了对齐过程。

Q3:使用gpt-oss-20b-base模型有什么风险和注意事项?

A:该模型输出更自由,可能产生原始对齐模型会拒绝的内容,包括制造武器、粗话或非法活动的指令,甚至能逐字复制版权作品。虽然对研究有价值,但也带来了更高的安全风险。为获得最佳效果,建议在提示前添加特殊开始序列Token。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
相亲时,女孩坦白自己有孩子,我刚要撤退,她却指着邻桌:我弟!

相亲时,女孩坦白自己有孩子,我刚要撤退,她却指着邻桌:我弟!

罪案洞察者
2026-03-21 09:25:36
切尔西剩余英超:4月中旬连战曼城&曼联;5月连战利物浦&热刺

切尔西剩余英超:4月中旬连战曼城&曼联;5月连战利物浦&热刺

懂球帝
2026-03-22 08:44:06
30万亿砸向普通人!2026两会定调:不再只修路盖楼,国家要投资你

30万亿砸向普通人!2026两会定调:不再只修路盖楼,国家要投资你

八斗小先生
2026-03-20 15:44:39
美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

安安说
2026-03-21 10:56:42
中秋聚餐亲戚轮番挖苦我,我没脑默默取消姑父的升职,全家都炸锅了

中秋聚餐亲戚轮番挖苦我,我没脑默默取消姑父的升职,全家都炸锅了

奶茶麦子
2026-03-21 22:36:06
WTA一夜过后,3大种子出局!郑钦文狂揽43万奖金,还获一个好消息

WTA一夜过后,3大种子出局!郑钦文狂揽43万奖金,还获一个好消息

郝小小看体育
2026-03-22 08:26:30
随着广州豹3-2,长春亚泰0-1,梅州客家1-2,中甲最新积分榜出炉

随着广州豹3-2,长春亚泰0-1,梅州客家1-2,中甲最新积分榜出炉

俯身冲顶
2026-03-21 22:13:36
下等的自愈,是买醉;中等的自愈,是旅行;顶级的自愈是这个

下等的自愈,是买醉;中等的自愈,是旅行;顶级的自愈是这个

富书
2026-03-18 13:09:04
美国已被夺舍,我们是下一个?

美国已被夺舍,我们是下一个?

美第奇效应
2026-03-21 01:50:29
等我老了,也学日本主妇:少穿卫衣、毛衣,换成这样穿更优雅减龄

等我老了,也学日本主妇:少穿卫衣、毛衣,换成这样穿更优雅减龄

冒泡泡的鱼儿
2026-03-18 14:40:23
“常州首富”恒立液压汪立平被留置,家族公司近期减持逾29亿

“常州首富”恒立液压汪立平被留置,家族公司近期减持逾29亿

经济观察报
2026-03-22 11:32:04
原来温瑞博的爸爸是他!曾是乒乓球队顶梁柱,难怪19岁儿子这么牛

原来温瑞博的爸爸是他!曾是乒乓球队顶梁柱,难怪19岁儿子这么牛

阅微札记
2026-03-21 19:26:48
武契奇吐槽中国导弹太贵,150万欧元一枚,能把北约吓傻眼

武契奇吐槽中国导弹太贵,150万欧元一枚,能把北约吓傻眼

利刃号
2026-03-19 17:29:06
不跟国乒玩了?林高远80万欧签约德国俱乐部,还当乒乓公司老板

不跟国乒玩了?林高远80万欧签约德国俱乐部,还当乒乓公司老板

大鱼简科
2026-03-21 19:25:23
特斯拉29亿美元大单投向中国供应商,马斯克百吉瓦太阳能计划加速落地

特斯拉29亿美元大单投向中国供应商,马斯克百吉瓦太阳能计划加速落地

白浅娱乐聊
2026-03-21 15:42:07
山姆员工被曝每天必须推荐3人升级会员,完不成就得写检讨

山姆员工被曝每天必须推荐3人升级会员,完不成就得写检讨

映射生活的身影
2026-03-22 11:49:03
退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

退休后从广州搬到佛山,住一年才明白:这不是换地方,是换活法

呼呼历史论
2026-03-21 19:06:50
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

丁丁鲤史纪
2026-03-18 10:18:14
3月22日,券商给予评级并且给出目标价的公司一览

3月22日,券商给予评级并且给出目标价的公司一览

A股数据表
2026-03-22 06:10:03
2026-03-22 12:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17025文章数 49695关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

伊朗:国产防空系统击中美军F-35战机

头条要闻

伊朗:国产防空系统击中美军F-35战机

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

艺术
亲子
健康
教育
时尚

艺术要闻

第四届深圳大芬国际油画双年展 | 入选油画选刊(四)

亲子要闻

现在的小孩有多早熟?网友:初一来大姨妈

转头就晕的耳石症,能开车上班吗?

教育要闻

初中数学求面积,条件不足?

这些才是适合普通人借鉴的穿搭!衣服叠穿、多穿衬衫,好耐看

无障碍浏览 进入关怀版