网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了

0
分享至


新智元报道

编辑:元宇

【新智元导读】DeepSeek-R1亮相Nature,在此之前,几乎没有一个主流大模型在科研期刊中经过独立同行评审。在评审过程中,DeepSeek-R1对论文进行了重要修订,增加了对R1的安全性评估等内容。此次同行评审,被视作AI行业迈向更高透明度和可复现性的关键一步。

近日,DeepSeek-R1登上Nature封面,标志着中国AI技术获得了来自国际的顶级认证。


Nature高度赞扬了DeepSeek-R1,表示它已通过同行评审,打破了主流大模型未经过独立同行评审这一国际惯例。


同时Nature也在社论中鼓励其他公司,把大模型送来进行同行评审。

AI行业亟需重视同行评审

Nature认为,除了DeepSeek-R1之外,当前主流的大模型,几乎没有一个是在科研期刊中经过独立同行评审的。

这种缺位,目前在AI行业已经十分明显。

「同行评审,能够帮助理清这些模型的工作机制,也有助于判断它们是否真的如宣传中所说那样有效。」

DeepSeek正在改变着一切,它已将R1模型细节正式发表在Nature上。

作为开放权重模型,用户无法获得R1的全部源代码和训练数据,但可以自由下载、使用、测试甚至基于它进行再开发。

自今年1月在Hugging Face上发布以来,R1在平台上深受用户关注和喜爱。最新数据显示,近30天R1下载量接近42万。


如今,该模型已经通过了8位专家的评审,评估内容涵盖其创新性、方法和稳健性。

这些评审意见,与作者的回复一并发表,这是AI行业迈向更高透明度和可复现性的关键一步。

对于当前充斥着未经验证的炒作的行业现状,这种实践尤为可贵。

DeepSeek-R1论文,与今年早些时候发布的初版相比,进行了重大的修订。

包括首次披露了R1的训练成本、训练技术细节,增加了对R1的安全性评估,以及回应初始发布阶段,外部关于「蒸馏方法」的质疑。

让AI创新更容易被接受

同行评审,是一种更开放的推广方式。

它营造了更透明、更客观也更具公信力的一种研讨与推广方式,在推动行业交流和进步的同时,也让企业的创新成果更容易为更多人所接受。

比如,在R1这篇论文中,DeepSeek重点介绍了他们是如何训练R1学会「推理」的。

研究团队采用了一种高效自动化的强化学习方法:「试错加奖励」的流程。

在这一过程中,模型会学习诸如「自我验证思路」的推理策略,且不依赖人类既有的方法论。

此前,DeepSeek发布了一篇预印本论文,介绍了他们的训练方法及模型在各类评测基准上的表现。

大模型厂商,经常会通过官方技术博客、评测报告、模型卡(system card)等方式介绍大模型训练方法及模型在各类评测基准上的表现,但这类技术文档的信息量和透明度常常参差不齐。

同行评审,很好地弥补了这方面的缺点,它不是一个单方面输出的信息披露行为,而是一个公开的互动过程。

它是一个由独立第三方(如期刊编辑、研究者等)组织的互动过程。

在这个过程中,第三方的外部专家,可以向作者(开发者)提出质疑、要求补充信息,从而促使对方进一步论证自己的观点或补充内容。

这一过程,将大大提升论文的清晰度和可信度。

这也意味着,AI开发者的成果能更好地被各界所接纳。

向「刷榜」和「自评」说不

同行评审,避免了开发者「刷榜」「自己打分」等主观夸大的倾向,比如专门挑选有利于自家模型的基准进行展示等。

更有甚者,一些评测还可以被「训练数据污染」——比如,让模型接触到测试题目,从而影响其真实能力评估。这无异于作弊。

在R1的评审过程中,同样也有评审专家质疑,R1是否存在「训练数据污染」问题。

对此,DeepSeek提供了相应的防范措施说明,还补充了模型发布后才公开的基准测试的额外评估。

此外,同行评审也促成了DeepSeek-R1论文的一些关键修订。其中,一个重要修改,就是补充了关于模型安全性的说明。

R1的审稿人指出,原论文缺乏关于安全测试的信息,例如并未评估模型被滥用的难易程度。

针对这一问题,DeepSeek补充了详细内容,包括一节专门说明模型安全性评估,并将其与其他模型进行了对比。

此外,针对同行评审意见,DeepSeek还减少了描述中的个性化表述,并增加了对技术细节的澄清,包括模型训练所使用的数据类型及其安全性。

为AI增加「透明度」

外部审查,为AI行业增加了「透明度」,也为行业的发展,提供了更健康的环境。

这一点,正逐渐成为越来越多AI公司的共识。

上个月,OpenAI与Anthropic就互测了对方的大模型,并因此发现了原团队未曾察觉的问题。

今年7月,Mistral AI也联合外部顾问机构,对其模型的环境影响进行了评估,希望以此来提升行业的报告透明度。

在AI迅猛发展,影响日益广泛的当下,这种积极的行业转变,无疑是十分重要的。

Nature表示,目前的大部分做法,仍缺乏同行评审的独立性,同行评审仍是当前最可信赖的验证机制。

Hugging Face的Lewis Tunstall,是DeepSeek-R1论文的评审者之一,他认为DeepSeek-R1是最早经历同行评审流程的大型LLM,这是一个非常好的先例:

「若不公开大部分研发过程,就很难评估这些系统是否构成风险。」

俄亥俄州立大学AI研究员Huan Sun表示,经历严格的同行评审过程,有助于验证模型的有效性和实用性,并呼吁其他公司也应该这样做。

同行评审≠泄露商业机密

同行评审,会不会泄露商业机密?

大模型训练投入极高,很多AI公司都担心,如果商业机密被竞争对手抄了去,自己将处于不利的竞争地位。

但以发布在Nature上的谷歌Med-PaLM模型为例,即使是闭源模型,也完全可以接受同行评审。

而且,同行评审,是推动AI行业回归理性、抵御炒作的有效手段。

Nature认为,无法验证的夸大宣传,才是对社会的真实风险。因此,Nature主张未来会有更多AI公司勇于将自家模型提交至学术发表流程中进行审核。

同行评审不等于泄露公司机密,它是验证公司创新成果的一道必要的程序。

它让我们的所有主张,都必须经过实证的洗礼,而不是依靠单纯的主观臆想。

参考资料:

https://www.nature.com/articles/d41586-025-02979-9


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
半夜雨大!海上“三台共舞”!最新预报:“桦加沙”或给上海带来明显降水,影响时段→

半夜雨大!海上“三台共舞”!最新预报:“桦加沙”或给上海带来明显降水,影响时段→

鲁中晨报
2025-09-19 15:33:10
华为大突破,一口气发布多款芯片!网友:难怪咱妈敢对英伟达动手

华为大突破,一口气发布多款芯片!网友:难怪咱妈敢对英伟达动手

青青子衿
2025-09-18 23:41:16
网传女子吐槽苹果手机相当于当地国家1/3月薪,国产却要两月工资

网传女子吐槽苹果手机相当于当地国家1/3月薪,国产却要两月工资

笔尖下的人生
2025-09-19 16:45:46
为什么说人类去ktv就几乎废了?网友:我只能说还是注意安全吧

为什么说人类去ktv就几乎废了?网友:我只能说还是注意安全吧

解读热点事件
2025-06-10 00:20:03
你永远不会独行,阿诺德转发利物浦官方发布的若塔海报

你永远不会独行,阿诺德转发利物浦官方发布的若塔海报

懂球帝
2025-09-20 02:21:25
转告父母:服用“他汀药”期间,不要碰这4物,建议放心上

转告父母:服用“他汀药”期间,不要碰这4物,建议放心上

泠泠说史
2025-09-19 13:56:30
陕西:不少游客专门前往秦岭采摘野生板栗,甚至用上了麻袋!当地环保部门表示...

陕西:不少游客专门前往秦岭采摘野生板栗,甚至用上了麻袋!当地环保部门表示...

陕西吃喝玩乐
2025-09-19 17:47:08
断供多了,轮到银行慌了!

断供多了,轮到银行慌了!

金投网
2025-09-19 16:19:52
钓鱼男子拖拽鱼竿触碰高压线身亡,供电公司被判赔115万元,塘主赔7.6万元

钓鱼男子拖拽鱼竿触碰高压线身亡,供电公司被判赔115万元,塘主赔7.6万元

红星新闻
2025-09-19 15:37:06
新中国第一代高级干部名单大全,收藏!

新中国第一代高级干部名单大全,收藏!

霹雳炮
2025-09-13 22:02:41
全智贤被全面抵制!相关代言评论区沦陷,网友要求滚出中国市场

全智贤被全面抵制!相关代言评论区沦陷,网友要求滚出中国市场

古木之草记
2025-09-19 23:08:20
上海再发布新政,释放重要信号

上海再发布新政,释放重要信号

明源地产研究
2025-09-19 19:46:37
24岁嫁给刘翔的葛天,结婚不到1年就离婚了,如今12年后过得怎样

24岁嫁给刘翔的葛天,结婚不到1年就离婚了,如今12年后过得怎样

贵州小娟
2025-09-19 23:37:51
被排挤打压,郑丽文若败选将另择新枝!

被排挤打压,郑丽文若败选将另择新枝!

放开他让wo来
2025-09-19 14:55:39
通过这12个细节,网友们对人口问题有个基本的预估了

通过这12个细节,网友们对人口问题有个基本的预估了

清晖有墨
2025-09-17 16:59:17
误触“化骨水”女子今日(18日)已火化,丈夫称抢救3天花了30多万,涉案者儿子发声

误触“化骨水”女子今日(18日)已火化,丈夫称抢救3天花了30多万,涉案者儿子发声

极目新闻
2025-09-18 22:04:03
官方:齐达内之子卢卡选择代表阿尔及利亚国家队出战

官方:齐达内之子卢卡选择代表阿尔及利亚国家队出战

雷速体育
2025-09-20 02:36:13
亲眼见证女儿厌学全过程,我发现,厌学孩子都有个共性:对学习长期失控,内心焦虑,每天都觉得很累

亲眼见证女儿厌学全过程,我发现,厌学孩子都有个共性:对学习长期失控,内心焦虑,每天都觉得很累

青春期父母成长学堂
2025-09-19 22:15:30
广西兴安人刘传林简介

广西兴安人刘传林简介

探秘桂北
2025-09-20 00:18:24
突发讣告!她于9月16日去世,年仅34岁

突发讣告!她于9月16日去世,年仅34岁

巷子里的历史
2025-09-19 07:55:57
2025-09-20 02:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13479文章数 66162关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

时尚
本地
旅游
亲子
军事航空

卡其裤+蓝衬衫,简单高级

本地新闻

大学生军训哪家强,广西申请“出战”!

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

亲子要闻

每年一次性发放!育儿补贴新规出台

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版