网易首页 > 网易号 > 正文 申请入驻

研究员:逆向还原OpenAI模型为基础版

0
分享至


OpenAI最新的开源权重大语言模型家族gpt-oss在不到两周前以Apache 2.0许可证发布——这是该公司自2019年GPT-2以来首次发布开源权重模型——但公司外部的开发者已经开始对其进行改造。

最引人注目的例子来自康奈尔理工学院博士生、前谷歌大脑研究员、现任Meta研究员Jack Morris。本周,他推出了gpt-oss-20b-base,这是他对OpenAI较小版本gpt-oss-20B模型的重新改造版本,移除了模型的"推理"行为,将其还原为预训练的"基础"版本,提供更快速、更自由、更无审查和无约束的响应。

该模型现已在Hugging Face上以宽松的MIT许可证提供,允许用于研究和商业应用。

gpt-oss-20B-base与OpenAI的gpt-oss模型的区别

要理解Morris的做法,需要了解OpenAI的发布版本与AI研究人员所称的"基础模型"之间的区别。

大多数由OpenAI、Anthropic、谷歌以及Meta、DeepSeek、阿里巴巴Qwen团队等开源提供商提供的大语言模型都是"后训练"的。这意味着它们经过了额外阶段,接触了精心策划的期望行为示例。

8月5日OpenAI发布的gpt-oss模型是"推理优化"的:经过训练和微调,不仅能预测下一个词,还能以安全、一致的方式遵循指令,通常在产生最终答案之前通过结构化的"思维链"推理来分析问题。

基础模型则不同。它是大语言模型在应用推理特定对齐之前的原始预训练版本。基础模型只是试图根据之前的内容预测下一个文本块,没有内置的保护机制、风格偏好或拒绝行为。

Morris的目标是"逆转"OpenAI的对齐过程,将较小的gpt-oss-20B恢复到更接近其原始预训练状态的版本。

"我们基本上逆转了大语言模型训练的对齐部分,现在我们有了能再次产生自然文本的东西,"他在X线程中写道。"它不再进行思维链推理。它回到了只是预测通用文本中下一个Token的模型。"

如何从OpenAI的gpt-oss-20b中提取基础模型

Morris没有尝试用巧妙的提示来越狱模型——他说在早期实验中证明这种方法无效——而是在与前OpenAI联合创始人、前Anthropic研究员、现任Thinking Machines首席科学家John Schulman交谈后采取了不同的策略。

关键是将对齐逆转视为一个小型优化问题:如果模型的大部分预训练知识仍然存在于其权重中,那么可能只需要一个微小的低秩更新就能将其推回基础模型行为。

Morris通过对模型的三层——第7、15和23位置的MLP层——应用秩为16的LoRA(低秩适配器)更新来实现这一想法。这意味着训练大约6000万个参数,占模型210亿总参数的0.3%。他使用了FineWeb数据集中的约20000个文档,保持格式尽可能接近原始预训练风格。

Morris告诉VentureBeat,训练在八个NVIDIA H200 GPU上进行了四天,学习率为2e-6,批量大小为16,最大序列长度为8192个Token。

新gpt-oss-20b-base模型的行为差异

生成的gpt-oss-20b-base在输出上明显更自由。它不再默认逐步解释推理,会产生更广泛的响应,包括OpenAI对齐模型会拒绝给出的指令——如制造武器、列举粗话或计划非法活动。

在简短测试中,Morris发现它可以逐字复制版权作品的段落,包括他尝试的六个书籍摘录中的三个,显示一些记忆材料仍然可访问。

即便如此,一些对齐痕迹仍然存在。Morris指出,如果以助手风格格式提示模型,它有时仍会表现得像礼貌的聊天机器人。

基于OpenAI的gpt-oss家族发布

gpt-oss家族的首次亮相引起了相当大的关注。两个模型——gpt-oss-120B和gpt-oss-20B——是纯文本、多语言的,采用专家混合Transformer架构构建。它们以宽松的Apache 2.0许可证发布,允许无限制的本地使用、微调和商业部署。

这是OpenAI六年来首次发布开源权重版本,被广泛解读为对包括中国DeepSeek R1和Qwen 3在内的其他开源权重提供商竞争压力的回应。

开发者对最初gpt-oss的反应不一

开发者对OpenAI的gpt-oss模型的反应明显不一,从热情到失望都有。

支持者赞扬了宽松的许可证、效率和在STEM基准上的强劲表现。Hugging Face CEO Clem Delangue将该发布描述为"开放生态系统的有意义补充"。

批评者认为这些模型似乎在合成数据上进行了大量训练,使它们在数学和编程方面表现出色,但在创意写作、一般世界知识和多语言推理方面能力较弱。

在此背景下,Morris的gpt-oss-20b-base是开源权重模型如何在发布后几天内被改编和重新利用的具体例子。与OpenAI的gpt-oss收到的反应相比,Morris工作的大多数反响都是温暖和欣喜的。

Q&A

Q1:gpt-oss-20b-base模型是什么?它与原始模型有什么不同?

A:gpt-oss-20b-base是研究员Jack Morris对OpenAI的gpt-oss-20B模型进行改造后的版本,移除了"推理"行为,还原为预训练的"基础"版本。它不再进行思维链推理,回到了只预测下一个Token的状态,提供更快速、更自由、更无审查约束的响应。

Q2:Jack Morris是如何将推理模型逆向还原为基础模型的?

A:Morris采用了LoRA(低秩适配器)技术,只对模型三个层(第7、15、23位置的MLP层)进行微调,训练了约6000万个参数(占总参数的0.3%)。他使用FineWeb数据集中的2万个文档,在8个NVIDIA H200 GPU上训练了4天,成功逆转了对齐过程。

Q3:使用gpt-oss-20b-base模型有什么风险和注意事项?

A:该模型输出更自由,可能产生原始对齐模型会拒绝的内容,包括制造武器、粗话或非法活动的指令,甚至能逐字复制版权作品。虽然对研究有价值,但也带来了更高的安全风险。为获得最佳效果,建议在提示前添加特殊开始序列Token。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

萌神木木
2025-11-15 19:10:03
金鸡奖红毯生图来了!倪妮珠宝抢镜,关晓彤背厚,辛芷蕾礼服过季

金鸡奖红毯生图来了!倪妮珠宝抢镜,关晓彤背厚,辛芷蕾礼服过季

萌神木木
2025-11-15 18:38:53
一组关键词看日本首相高市早苗搞了什么事

一组关键词看日本首相高市早苗搞了什么事

环球网资讯
2025-11-15 20:57:18
1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

以茶带书
2025-11-15 12:31:58
山西“狗咬人被摔死”命案调查:纠纷如何升级。“反杀”是否防卫过度?

山西“狗咬人被摔死”命案调查:纠纷如何升级。“反杀”是否防卫过度?

澎湃新闻
2025-11-15 14:48:27
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
快讯!日本:已向中方再次作出说明

快讯!日本:已向中方再次作出说明

南权先生
2025-11-15 16:49:53
川超太火爆!凉山卡马文加飞踹主裁,媒体人:不终身禁赛说不过去

川超太火爆!凉山卡马文加飞踹主裁,媒体人:不终身禁赛说不过去

奥拜尔
2025-11-15 19:31:12
从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

快刀财经
2025-11-14 22:46:29
继三大航司后,多家航司同日发布通知:赴日机票可免费退改签

继三大航司后,多家航司同日发布通知:赴日机票可免费退改签

界面新闻
2025-11-15 17:09:58
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
从流量高地到零售长坡:二十年后,汽车之家完成时代转身

从流量高地到零售长坡:二十年后,汽车之家完成时代转身

36氪
2025-11-15 20:55:48
2-0大冷!中国队击败韩国队升到第1名,邵佳一为国足挖掘3大核心

2-0大冷!中国队击败韩国队升到第1名,邵佳一为国足挖掘3大核心

何老师呀
2025-11-15 21:44:31
日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

青青子衿
2025-11-15 15:51:35
孙颖莎击败朱雨玲,王曼昱击败陈梦,都没有太多悬念

孙颖莎击败朱雨玲,王曼昱击败陈梦,都没有太多悬念

子水体娱
2025-11-15 19:24:50
果然不出所料,茅台官宣:开放1499飞天无限购,黄牛一夜崩盘

果然不出所料,茅台官宣:开放1499飞天无限购,黄牛一夜崩盘

小蜜情感说
2025-11-15 07:08:17
随着王曼昱4-0大胜陈梦,产生两大不可思议:连续2届进全运会决赛

随着王曼昱4-0大胜陈梦,产生两大不可思议:连续2届进全运会决赛

侃球熊弟
2025-11-15 21:20:33
对话|日本问题权威专家:不能将高市早苗涉台言论视为偶然和孤立性事件

对话|日本问题权威专家:不能将高市早苗涉台言论视为偶然和孤立性事件

澎湃新闻
2025-11-14 15:12:30
陕西某985女生买情趣内衣退货,店主无奈吐槽:穿成这样卖给谁?

陕西某985女生买情趣内衣退货,店主无奈吐槽:穿成这样卖给谁?

观察鉴娱
2025-11-15 16:11:08
2025-11-15 23:11:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14687文章数 49674关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

手机
健康
旅游
房产
公开课

手机要闻

荣耀大折叠新动向:阔折叠比例在路上,三折叠屏被放弃!

金振口服液助力科学应对呼吸道疾病

旅游要闻

襄阳百米长桌宴开席,孔明灯漫天飞,这场古风市集让全网羡慕哭

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版