网易首页 > 网易号 > 正文 申请入驻

仅 365 元、训练类 OpenAI o1、DeepSeek R1 模型:已开源

0
分享至

2025 年 1 月31 日,发布的一篇新研究论文显示,斯坦福大学和华盛顿大学的 AI 研究人员凭借不到 50 美元(365 元人民币)的云计算积分(credit),成功训练了一个 AI “推理”模型。

该模型名为 s1,在测试数学和编码能力方面的表现与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相类似。

s1 模型以及用于训练它的数据和代码现已放在了 GitHub上,详见:https://github.com/simplescaling/s1。

s1 背后的研究团队表示,他们从一个现成的基础模型入手,然后通过蒸馏对基础模型进行微调。

蒸馏是指通过使用答案进行训练,从另一个 AI 模型提取“推理”功能的过程。

研究人员表示,s1 是从谷歌的推理模型之一:Gemini 2.0 Flash Thinking Experimental 蒸馏或提炼而来的。

上个月,伯克利大学的研究人员同样用蒸馏方法创建了一个 AI 推理模型,成本仅花了约 450 美元。

在一些人看来,几个没有数百万美元资金支持的研究人员仍然可以在 AI 领域进行创新,这确实令人兴奋。

但 s1 在 AI 模型商品化方面引出了真正的问题。

如果有人用比较少的钱就可以高度复制出一个原本需要投入数百万美元才能开发出来的模型,护城河又在哪里?

大型 AI 实验室并不高兴,这不足为奇。

OpenAI 已指控 DeepSeek 出于模型蒸馏的目的,以不当手段从其 API 收集数据。

s1 背后的研究人员正在寻找最简单的方法来实现强大的推理性能和“测试时间缩放”,即让 AI 模型在进行更多的思考之后才回答问题。

这些是 OpenAI 的 o1 取得的几项突破,DeepSeek 及其他 AI 实验室试图通过各种技术同样取得这些突破。

s1 论文显示,推理模型可以使用一种名为监督微调(SFT)的方法,用一个比较小的数据集进行蒸馏。

在监督微调过程中,AI 模型被明确指示模仿数据集中的某些行为。

SFT 的成本往往比大规模强化学习方法来得低廉,而 DeepSeek 使用后者来训练与 OpenAI 的 o1 模型竞争的 R1。

谷歌通过其 Google AI Studio 平台免费供人访问 Gemini 2.0 Flash Thinking Experimental,不过有当日速率限制。

然而,谷歌的条款禁止对其模型进行逆向工程处理,阻止外人开发与该公司自己的 AI 产品相竞争的服务。

s1 基于阿里巴巴 AI 实验室 Qwen 的一个现成的小型 AI 模型,该模型可免费下载。为了训练 s1,研究人员创建了一个由仅仅 1000 个精挑细算的问题组成的数据集,并将这些问题与答案进行配对,来自谷歌的 Gemini 2.0 Flash Thinking Experimental 的每个答案背后都进行了“思考”过程。

据研究人员表示,在训练 s1(使用 16 块英伟达 H100 GPU 不到 30 分钟的时间就完成了训练)后,s1 在某些 AI 基准测试中取得了出色的表现。

参与该项目的斯坦福大学研究人员 Niklas Muennighoff 表示, 如今他以约 20 美元的价格就能租到必要的计算资源。

研究人员使用了一个巧妙的技巧让 s1 仔细检查其工作,并延长其“思考”时间:他们让 s1 等待。

据论文显示,在 s1 的推理过程中加入“等待”一词有助于模型得出更准确一点的答案。

Meta 、谷歌和微软计划 2025 年在 AI 基础设施上投资数千亿美元,其中一部分将用于训练下一代 AI 模型。

这等规模的投资可能仍然是推动 AI 创新勇攀高峰的必要条件。

蒸馏已被证明是一种低成本重现 AI 模型功能的好方法,但它并不能开发出比现有模型好得多的新的 AI 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

怎么也想不通,她长这么漂亮,演技那么好,为啥一直火不起来呢

草莓解说体育
2026-03-01 00:47:24
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
突发!真主党二号核心被定点清除,以色列再下狠手

突发!真主党二号核心被定点清除,以色列再下狠手

老马拉车莫少装
2026-03-02 12:49:32
县政府投书人民日报称“读者反映情况不属实”,记者两赴调查:自来水确实时有时无

县政府投书人民日报称“读者反映情况不属实”,记者两赴调查:自来水确实时有时无

上观新闻
2026-03-02 09:40:04
以色列在“狮吼袭击”行动中摧毁了伊朗的 Shahab-3 弹道导弹

以色列在“狮吼袭击”行动中摧毁了伊朗的 Shahab-3 弹道导弹

深度Militaire
2026-03-02 10:05:12
如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

天下十三洲猎奇
2026-03-01 00:21:41
记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

懂球帝
2026-03-02 14:20:07
1989年,哈梅内伊吃北京烤鸭时,一张罕见留影,此后再未踏出国门

1989年,哈梅内伊吃北京烤鸭时,一张罕见留影,此后再未踏出国门

冒泡泡的鱼儿
2026-03-02 16:07:00
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
遗产风波升级!向华强硬刚逆子,谁让我高兴钱给谁,碧婷才配掌权

遗产风波升级!向华强硬刚逆子,谁让我高兴钱给谁,碧婷才配掌权

小徐讲八卦
2026-03-02 05:01:49
美军公布伤亡情况

美军公布伤亡情况

环球时报国际
2026-03-02 00:10:13
卫星图确认,伊朗主力舰被命中并起火,三艘军舰一动不动躺平挨打

卫星图确认,伊朗主力舰被命中并起火,三艘军舰一动不动躺平挨打

啸鹰评
2026-03-01 17:50:33
哈梅内伊遇害,让我们更佩服毛主席70多年前对美国本质的深刻认知

哈梅内伊遇害,让我们更佩服毛主席70多年前对美国本质的深刻认知

小杨历史
2026-03-01 21:33:52
93年顾城杀妻后自尽,留下他极厌恶的儿子,如今活成他所愿的样子

93年顾城杀妻后自尽,留下他极厌恶的儿子,如今活成他所愿的样子

云霄纪史观
2026-01-26 20:03:44
宁波一旅游团所乘邮轮滞留迪拜,船上有约200名中国游客

宁波一旅游团所乘邮轮滞留迪拜,船上有约200名中国游客

上观新闻
2026-03-02 16:27:07
美军瞒不住了!炸航母基地,炸11亿美元雷达,几十万吨燃油被点燃

美军瞒不住了!炸航母基地,炸11亿美元雷达,几十万吨燃油被点燃

梦史
2026-03-01 11:22:23
突发,全球巨震!A股,罕见一幕

突发,全球巨震!A股,罕见一幕

证券之星
2026-03-02 16:10:05
“全部拆除”将至?2026住建部官宣:这两类房屋一律拆除

“全部拆除”将至?2026住建部官宣:这两类房屋一律拆除

慧眼看世界哈哈
2026-03-02 14:13:14
美以刺杀伊朗最高领袖和总统失败

美以刺杀伊朗最高领袖和总统失败

财联社
2026-02-28 18:48:32
沸腾!1.1亿国产光刻机成交,美荷联手施压:自主研发错了?

沸腾!1.1亿国产光刻机成交,美荷联手施压:自主研发错了?

数码八叔
2026-03-01 16:43:09
2026-03-02 18:55:00
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
18921文章数 27290关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

头条要闻

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

房产
健康
旅游
公开课
军事航空

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

转头就晕的耳石症,能开车上班吗?

旅游要闻

门票半价 财神送汤圆!鸡公山、白云山给全国游客送福利啦!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版