网易首页 > 网易号 > 正文 申请入驻

中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花200万

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

Nature封面认证!DeepSeek R1成果,又拿下了最新殊荣。

就在最新的Nature新刊中,DeepSeek一举成为首家登上《Nature》封面的中国大模型公司,创始人梁文锋担任通讯作者。

纵观全球,之前也只有极少数如DeepMind者,凭借AlphaGo、AlphaFold有过类似荣誉。



Nature版本的R1论文不仅首次披露了R1的训练成本——仅约29.4万美元(折合人民币约 208 万),还进一步补充了包括模型训练所使用的数据类型及安全性的技术细节。

评审该论文的Hugging Face机器学习工程师Lewis Tunstall表示,R1是首个经历同行评审的大型语言模型,这是一个非常值得欢迎的先例。

而俄亥俄州立大学人工智能研究员Huan Sun更是盛赞R1 ,称其自发布以来,几乎影响了所有在大语言模型中使用强化学习的研究。

截至发文前,其数据如下:

  • 谷歌学术引用:3596次
  • Hugging Face 下载量:1090万次(开源模型下载量第一)
  • GitHub Star:91.1K

不过也是因为DeepSeek,中国AI公司的下一篇工作,恐怕已经不再满足于 CVPR、ICLR、ICML这些AI顶会了,

是不是得对齐Nature、Science的封面了?



澄清训练细节

在这次的Nature版本中,DeepSeek在其最新的补充材料中对训练成本、数据及安全性进行了进一步的澄清。

在训练花费方面, R1-Zero和R1都使用了512张H800GPU,分别训练了198个小时和80个小时,以H800每GPU小时2美元的租赁价格换算的话,R1的总训练成本为29.4万美元。



要知道,R1可是实打实的660B参数的大模型。

相比之下,它不到30万美元的训练成本,直接让那些动辄烧掉上千万美元的同行们“抬不起头”。

也难怪它在年初发布时,会在美股掀起一场海啸,让那些关于“巨额投入才能打造顶级AI模型”的传言不再那么漂亮。

(奥特曼:干脆报我身份证号得了)

此外,在数据来源方面,DeepSeek也是一举打破了拿彼模型之输出当R1之输入的传闻。

根据补充材料,DeepSeek-R1的数据集包含数学、编程、stem、逻辑、通用等5个类型的数据。



具体来说,数学数据集包含2.6万道定量推理题,包括数学考试题和竞赛题;

代码数据集包含1.7万道算法竞赛题和8千道代码修复问题;

STEM数据集包含2.2万道选择题,涵盖物理、化学和生物等学科;

逻辑数据集包含真实问题和合成问题等共1.5万道题;

通用数据集包含6.6万道题,用于评估模型的有用性,涵盖创意写作、文本编辑、事实问答、角色扮演以及评估无害性等多种类别。

在安全性方面,虽然开源共享有助于技术在社区中的传播,但同时也可能带来被滥用的潜在风险。因此DeepSeek又一进步发布了详细的安全评估,涵盖以下几个方面;

  • DeepSeek-R官方服务的风险控制系统
  • 在六个公开安全基准上与其他最先进模型的对比评估
  • 基于内部安全测试集的分类学研究
  • R1模型的多语言安全性评估
  • 模型对越狱攻击的鲁棒性评估。

评估表明,DeepSeek-R1 模型的固有安全水平总体处于中等水平,与 GPT-4o相当,通过结合风险控制系统可进一步提高模型的安全水平。

接下来,我们来一起回顾一下这篇经典论文

将强化学习应用于大语言模型的里程碑

总的来说,DeepSeek-R1(zero)旨在解决大型语言模型在处理复杂问题和对人工数据的依赖,提出了一种纯强化学习(RL)框架来提升大语言模型的推理能力。

这一方法不依赖人工标注的推理轨迹,而是通过自我演化发展推理能力,核心在于奖励信号仅基于最终答案的正确性,而不对推理过程本身施加限制。

具体来说,他们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Group Relative Policy Optimization)作为强化学习框架来提高模型在推理任务上的表现。

经过数千步强化学习训练后,DeepSeek-R1-Zero 在推理基准测试上表现出卓越性能。

例如,在AIME 2024上,pass@1分数从15.6%提升至71.0%,通过多数表决进一步提高至86.7%,与o1的表现相当。



更进一步,为了解决DeepSeek-R1-Zero 在可读性和语言混合上的问题,研究又引入DeepSeek-R1,采用少量冷启动数据和拒绝采样、强化学习和监督微调相结合的多阶段训练框架。

具体而言,团队首先收集数千条冷启动数据,对 DeepSeek-V3-Base 模型进行微调。随后,模型进行了类似 DeepSeek-R1-Zero 的面向推理的强化学习训练。

在强化学习接近收敛时,团队通过在强化学习检查点上进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答、自我认知等领域的监督数据,生成新的SFT数据,并重新训练DeepSeek-V3-Base模型。

经过新数据微调后,模型还经历了覆盖各种提示场景的额外的强化学习过程,DeepSeek-R1就由此而来。



实验表明,DeepSeek-R1与当时的顶尖模型OpenAI-o1-1217不相上下。

此外,将大模型涌现出的推理模式用于指导并提升小模型的推理能力也成为了一种经典方法。

论文中使用Qwen2.5-32B作为基础模型,结果显示,从DeepSeek-R1蒸馏出的性能,优于直接在该基础模型上应用强化学习。



当然,在开拓性论文的基础上,更让人津津乐道、也赢得Nature盛赞的,是DeepSeek的透明性与开源精神:

DeepSeek已在HuggingFace上公开了DeepSeek-R1和DeepSeek-R1-Zero的模型权重,同时将基于Qwen2.5 和 Llama3 系列的蒸馏模型一并开源,供社区自由使用。

回想年初DeepSeek在海外爆火时,梁文锋一句“中国AI不可能永远跟随”的豪言壮志令人振奋。

如今,DeepSeek影响力获得Nature封面认可,如果AI研究机构有S级认可,那DeepSeek毫无疑问已经拿到了S级认证。

下一个,阿里通义、字节Seed、腾讯混元、百度文心、华为、智谱、Kimi、阶跃……

Who?


[1]https://www.nature.com/articles/d41586-025-03015-6
[2]https://www.nature.com/articles/s41586-025-09422-z#Sec4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
起风了!高市还没派兵台海,中国总领事删掉18个字,日本紧急改口

起风了!高市还没派兵台海,中国总领事删掉18个字,日本紧急改口

影孖看世界
2025-11-11 18:59:15
中国男篮世预赛19人名单出炉!周琦张镇麟回归,徐杰落选引争议

中国男篮世预赛19人名单出炉!周琦张镇麟回归,徐杰落选引争议

篮球小布丁
2025-11-13 00:45:53
央视直播13日全运会乒乓球赛程,樊振东对孙正,陈梦战蒯曼

央视直播13日全运会乒乓球赛程,樊振东对孙正,陈梦战蒯曼

乒乓球球
2025-11-13 00:15:26
29岁新手妈妈失踪已一周!丈夫:妻子常上网看关于孩子畸形、基因突变的帖子

29岁新手妈妈失踪已一周!丈夫:妻子常上网看关于孩子畸形、基因突变的帖子

潇湘晨报
2025-11-12 14:45:17
禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

禁止日本公民入境!中方还没出手,普京对高市摊牌,官媒宣布结局

影孖看世界
2025-11-12 18:58:49
湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

极目新闻
2025-11-12 15:14:21
欲哭无泪!跌到脚踝了,南京一楼盘从9万跌到2万,学区房不吃香了

欲哭无泪!跌到脚踝了,南京一楼盘从9万跌到2万,学区房不吃香了

火山诗话
2025-11-10 08:39:37
全运会乒乓球:8人晋级,孙颖莎失利,王曼昱狂胜11-1

全运会乒乓球:8人晋级,孙颖莎失利,王曼昱狂胜11-1

老慃尾声体育解说
2025-11-12 23:58:21
蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

谛听骨语本尊
2025-11-12 16:18:16
梅毒去世的人越来越多?医生再次强调:宁可看电影,也别做这4事

梅毒去世的人越来越多?医生再次强调:宁可看电影,也别做这4事

泠泠说史
2025-11-12 15:30:50
马筱梅直播造型,肚子显怀似五个月,网友猜测怀孕却遭幽默回应?

马筱梅直播造型,肚子显怀似五个月,网友猜测怀孕却遭幽默回应?

娱乐领航家
2025-11-12 20:00:02
台北故宫院长妄称台北故宫的文物不属于大陆,老祖宗们都被气醒!

台北故宫院长妄称台北故宫的文物不属于大陆,老祖宗们都被气醒!

我心纵横天地间
2025-11-11 20:40:27
一战成名!国足20岁小将走红,传射神似张稀哲,邵佳一注意到他

一战成名!国足20岁小将走红,传射神似张稀哲,邵佳一注意到他

国足风云
2025-11-12 21:51:38
首次以中央名义开展!中央考核巡查组,进驻地方开展明查暗访等

首次以中央名义开展!中央考核巡查组,进驻地方开展明查暗访等

政知新媒体
2025-11-11 20:40:29
广西伴娘婚礼大跳艳舞,新娘一脸尴尬,网友:太辣眼!

广西伴娘婚礼大跳艳舞,新娘一脸尴尬,网友:太辣眼!

农村情感故事
2025-11-02 19:58:42
深圳急需259人,有编制,部分岗位甚至放宽到45岁

深圳急需259人,有编制,部分岗位甚至放宽到45岁

深圳梦
2025-11-12 22:41:06
震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

青眼财经
2025-11-12 14:42:01
母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

母亲被儿子暴打后续:男子身份被扒、高清正面照流出,悬针纹明显

鋭娱之乐
2025-11-12 00:50:22
A股:刚刚,证监会重磅发声,明天,周四将迎来新变化?

A股:刚刚,证监会重磅发声,明天,周四将迎来新变化?

云鹏叙事
2025-11-13 00:00:07
2025-11-13 05:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11662文章数 176329关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

游戏
手机
房产
家居
军事航空

分析称《GTA6》延期或致PS6等主机推迟:拖到2028年

手机要闻

TOP5厂商齐推双2亿像素:华为、小米、OPPO、vivo、荣耀!

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

家居要闻

情感之所 生活教会设计

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版