网易首页 > 网易号 > 正文 申请入驻

「夜袭」 OpenAI!DeepSeek 开源最强推理模型 R1,再震欧美同行

0
分享至

中国的 OpenAI,出现了。

作者 | 宛辰
编辑| 靖宇


对标 OpenAI o1 正式版的国产大模型来了!

1 月 20 日晚,DeepSeek(深度求索)公司发布推理模型 DeepSeek-R1 正式版,同步开源模型权重,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

网友热评:这,才是真正的OpenAI。能力相当于一个月 200 美元的 ChatGPT o1 版本,却完全免费

不止如此,DeepSeek 一同开源的还有「技术报告」,那些训练 R1 时踩过的坑、做过的事通通讲给你听,只为铺平 AGI 的路。

第一时间阅读这份技术报告后,英伟达高级研究科学家 Jim Fan 带来了新鲜解读,值得我们大声齐读:

「我们生活在这样一个时代:由非美国公司保持 OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。这似乎讲不通,但戏剧性的往往最有可能发生。

DeepSeek-R1 不仅开源了大量模型,还泄露了所有训练秘密。他们可能是第一个显示 RL(强化学习)飞轮发挥主要作用、持续增长的 OSS 项目。

影响可以通过『内部实现了 ASI』或『草莓计划』等神话名称来实现。也可以通过简单地转储原始算法和 matplotlib 学习曲线来产生影响。」

中国公司 DeepSeek,正在实现赶超 OpenAI 的使命

01

DeepSeek-R1:

实力派选择「秀肌肉」

「DeepSeek-R1」的发布,摆明了是:有实力所以明晃晃地秀肌肉!

这首先体现在它不整期货那一套,而是「发布即上线」,现在,你就可以在 DeepSeek 官网与 App 体验最新的推理模型 DeepSeek-R1,随便体验随便用,免费。

DeepSeek-R1 也同步上线了 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。

值得注意的是 DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。看下面这这图你会有更直接的体感,输出 API 价格只有 OpenAI o1 的 3%。低价背后,显然仍是秀肌肉,价格实力展现了技术实力——从AIInfra 层面降本的技术能力。

第三波「秀肌肉」体现在开源开放DeepSeek-R1 开源模型权重几乎是选择了最开放的许可证和用户协议,开源 License 统一使用 MIT,产品协议明确可「模型蒸馏」,主打一个让大家多多来基于它做二次开发、集成。DeepSeek 甚至主动给大家示范引导将 R1 作为教师模型来蒸馏出一个更小但仍有实力的模型,「通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果」。

事实上,模型开源选择不同的 License 背后大有学问,这直接体现不同模型厂商的开放程度,更体现开源背后的目的和策略。比如像 Llama、Qwen、GPT-2 等模型就不止开放权重,还开放了模型训练的源代码,这可能是为了追求衍生模型的繁荣。而 DeepSeek-R1 选择只开放权重,但换成了标准化、宽松的 MIT License,更多还是为了让更多开发者能用起来,感受 DeepSeek-R1 的能力。

我们再来通过几大主流测试基准来感受一下 DeepSeek-R1 的实力。「性能对齐 OpenAI-o1 正式版 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。」

对于 DeepSeek-R1 带来的直观感受,硅基流动联合创始人杨攀表示,不止模型能力和性能出色,最近两个模型 (R1 和 V3) 在训练技术和模型底层架构上都做了领先全球的创新,而且其论文开放程度也震惊了业界。

在一并公开的模型技术报告中,DeepSeek 将「DeepSeek-R1」训练技术全部公开,「旨在促进技术社区的充分交流与创新协作」。

对于开源模型加技术报告,开源社联合创始人林旅强此前向极客公园表示,开源是最好的「秀技术肌肉」的方式,同时「有的开源模型只开源、不讲他是怎么做的,但是合乎大家期待的开源模型是要搭配技术报告,等于是发 paper 了。开源模型不够的,因为模型是黑盒子,技术报告会说明一些东西。DeepSeek 他们是很透明地把他的技术报告拿来公开,即使一定程度还是会捂着掖着,但是已经是开得比较有态度。今天全球范围的学术派还是会认为,你把一个东西做出来再以开源的方式,是有学术追求的。

如果 DeepSeek 的目标是真正达到 AGI,就不断需要把踩过的坑、做过的事情开放出来,让大家少走一点弯路,开放才能让整个行业更快达到 AGI,他补充道。

最后,我们来随机看一些用户实测评价(截图来源:X.com):

02

DeepSeek,还有什么

惊喜是我们不知道的?!

尽管昨晚 DeepSeek-R1 的发布引发了「这才是 Open AI 吧」「东方的 OpenAI」等一片称赞。但 DeepSeek 强得非常扎实、全面。

去年在 2024 年 11 月 20 日发布 DeepSeek-R1-Lite 预览版时,美国著名半导体与 AI 咨询机构 Semianalysis 创始人 Dylan Patel 就坐不住了,第一时间下场「提醒」大家:他们有 5 万张 H100GPU!请不要以为他们只有 1 万张 A100

因为众所周知的原因,这大概率不是事实,却能反映 DeepSeek-R1-Lite 的强悍到让行业紧张。

一个月后,DeepSeek 上线并同步开源了媲美 GPT-4o 和 Claude 3.5 Sonnet 的模型「DeepSeek-V3」,并附上了详实的技术报告。这一次,几乎惊动了整个硅谷AI圈。卡神(OpenAI 创始团队、前 Tesla AI 总监 Andrej Karpathy)、Alexandr Wang(Scale.ai 创始人)、田渊栋(Meta AI 科学家)、贾扬清(Lepton AI 创始人)……人均一句「难以置信」。就连 Sam Altman 都忍不住出来酸一把「复刻已经被验证过奏效的东西是容易的」。

随着模型性能逐渐走向全球第一梯队,DeepSeek 也迎来了新的发展契机。

过去一年半,DeepSeek 专注于模型和研究,但从今年开始,DeepSeek 着手做应用了。

2025 年 1 月 15 日,DeepSeek 推出移动端 AI 助手「DeepSeek」App。目前看,DeepSeek App 跟网页版功能一致,主要有两个功能:联网搜索和深度思考,主打一个简洁,聊天记录也会同步显示在手机端和网页端,尚未针对移动端进行特定功能的打磨,也没有市面上 AI 助手类 App 丰富、fancy 的功能,更像是一个能让你在手机上体验 DeepSeek 最新模型的入口。

对此,一位投资人向极客公园解释 DeepSeek 开始做应用背后可能的战略转向:「前期 DeepSeek 靠自己的算力优势积累出了模型技术的领先度。后期要补数据,发 App 是补数据的手段之一。接入用户数据和场景,可以帮助他更好地进行模型能力的迭代和升级。」

同时,有了 DeepSeek-R1 和其他模态、类型越来越好的模型,可以期待未来 DeepSeek 在比如代码模型/应用里有更激进的表现,惊喜才刚刚开始。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你看好DeepSeek 吗

马斯克:传统教育培养答题机器,总爱折腾一些不存在的东西。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7800亿军购强行过关:AIT联手民进党演双簧?蓝白沦为背锅侠

7800亿军购强行过关:AIT联手民进党演双簧?蓝白沦为背锅侠

荷兰豆爱健康
2026-05-08 19:51:36
知情人士称江苏盐城一医生与同事聚餐酒后坠入河沟溺亡,医院工作人员证实:有医生溺亡一事

知情人士称江苏盐城一医生与同事聚餐酒后坠入河沟溺亡,医院工作人员证实:有医生溺亡一事

都市快报橙柿互动
2026-05-08 17:46:37
新加坡现2名汉坦病毒密接者:已入境近1周、强制隔离30天...

新加坡现2名汉坦病毒密接者:已入境近1周、强制隔离30天...

新加坡万事通
2026-05-07 19:45:45
45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

心理观察局
2026-05-08 09:43:07
世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

世界杯门票太贵,特朗普惊了:即使是我也不会花1000美元看比赛!央视拒绝花天价买转播权,底气何在?“国际足联可能已经慌了”上热搜

每日经济新闻
2026-05-08 14:58:09
黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

素素娱乐
2026-05-08 09:01:53
老人再婚后第一次圆房有何感想?67岁老人倾诉:她给了我很多惊喜

老人再婚后第一次圆房有何感想?67岁老人倾诉:她给了我很多惊喜

热心柚子姐姐
2026-05-07 16:28:09
深圳网约车真实一天!早6充电干到到晚9,一天流水太现实!

深圳网约车真实一天!早6充电干到到晚9,一天流水太现实!

三农老历
2026-05-08 14:47:16
巡抚好比省委书记,但不管从哪个方面比较,前者的权力都远超后者

巡抚好比省委书记,但不管从哪个方面比较,前者的权力都远超后者

鹤羽说个事
2026-05-06 22:59:42
福建一区民政局原局长、四级调研员涉嫌严重违纪违法被调查

福建一区民政局原局长、四级调研员涉嫌严重违纪违法被调查

大闽门户
2026-05-08 19:21:54
吴宜泽夺冠爆火,因籍贯问题引两省网友争论,姐姐给出了准确回应

吴宜泽夺冠爆火,因籍贯问题引两省网友争论,姐姐给出了准确回应

胡一舸南游y
2026-05-07 20:39:43
这就是赤裸裸的现实!中国邮政退休工资,才是真正的普通人天花板

这就是赤裸裸的现实!中国邮政退休工资,才是真正的普通人天花板

椰青美食分享
2026-05-08 14:05:19
巴媒:费利佩合同年底到期,成都蓉城已开启续约谈判

巴媒:费利佩合同年底到期,成都蓉城已开启续约谈判

懂球帝
2026-05-08 15:25:12
交火数小时,美伊披露战果

交火数小时,美伊披露战果

鲁中晨报
2026-05-08 09:58:03
沈眉庄为什么拍完《甄嬛传》后,仍是18线演员,郑晓龙评:自己作

沈眉庄为什么拍完《甄嬛传》后,仍是18线演员,郑晓龙评:自己作

美芽
2026-05-07 12:12:22
八路军最强的师,拥有30个师的兵力,八年抗战下来歼灭日伪军42万

八路军最强的师,拥有30个师的兵力,八年抗战下来歼灭日伪军42万

凡人侃史
2026-05-07 22:41:20
浙江油价定了:5月8日24时起,92号汽油每升8.68元,95号汽油每升9.23元,0号柴油每升8.39元

浙江油价定了:5月8日24时起,92号汽油每升8.68元,95号汽油每升9.23元,0号柴油每升8.39元

台州交通广播
2026-05-08 16:54:11
美媒曝KD与申京存裂痕!名嘴暗示将货架 模拟一套三方涉及7人交易

美媒曝KD与申京存裂痕!名嘴暗示将货架 模拟一套三方涉及7人交易

颜小白的篮球梦
2026-05-08 09:35:35
皇马内讧大地震!巴尔韦德遭队友重击脑损伤,阿韦洛亚更衣室失控

皇马内讧大地震!巴尔韦德遭队友重击脑损伤,阿韦洛亚更衣室失控

星耀国际足坛
2026-05-08 21:46:46
中国球迷险无法看国足踢世界杯!央视极限压价:2亿买两届转播权

中国球迷险无法看国足踢世界杯!央视极限压价:2亿买两届转播权

念洲
2026-05-07 16:31:49
2026-05-08 22:48:49
极客公园
极客公园
让最棒的创新成为头条
12025文章数 78879关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

"4只皮皮虾1035元"消费者再次发声 否认"想吃白食"

头条要闻

"4只皮皮虾1035元"消费者再次发声 否认"想吃白食"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
健康
教育
时尚
房产

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

干细胞能让人“返老还童”吗

教育要闻

快接住今天高考的专属好运!祝考生金榜题名

衣服其实没有必要买很贵,准备这三件基础款,百搭实用又不挑人

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

无障碍浏览 进入关怀版