网易首页 > 网易号 > 正文 申请入驻

DeepSeek在海内外彻底爆发,但它不需要被神话

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

1月27日,DeepSeek AI智能助手同时冲上中美iOS免费应用排行榜第一,这是中国应用首次达成这一成绩。

与此同时,与这家大模型公司相关的多个词条挤入微博热搜,其中一条是,“DeepSeek彻底爆发”。这背后有社交平台涌入的万千情绪:开源追上闭源,中国大模型公司超越OpenAI。

DeepSeek真的爆发了吗?

事实上,DeepSeek在这两天并没有做什么特别的事,将它推进舆论风暴中心的力量主要来自于Meta。

大概三天以前,在美国匿名职场社区teamblind上,有Meta员工直言,DeepSeek最近的一系列动作让Meta的生成式AI团队陷入了恐慌,前者低成本的训练工作,让后者难以解释自己超高预算的合理性。

“工程师们正在疯狂地分析DeepSeek,试图从中复制任何可能的东西。”

随即,Meta首席人工智能科学家杨立昆(Yann LeCun)在X(原推特)平台上表示,对于那些认为“中国在人工智能领域正在超越美国”的人,正确的想法是,“开源模型正在超越闭源模型”。这番表态直指DeepSeek近来在开源模型上的表现。

DeepSeek并不是突如其来“惊艳”所有人,从DeepSeek-V2开始,这家公司已经被硅谷视为一股东方的神秘力量。国内大模型行业第一场真正意义上的“降价潮”,也是由这家公司凭借“MoE+MLA”这一架构创新率先发起。

它近期之所以再度被热议,主要在于它过去一个月内相继发布了DeepSeek-V3和R1两款大模型产品。

2024年底,DeepSeek发布新一代MoE模型DeepSeek-V3,它拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。

在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近当前表现最好的Claude-3.5-Sonnet-1022,在代码能力上同样稍好于后者。而在数学能力上,V3已明显领先其他开闭源模型,包括LIama3.1 405B-Inst,GPT-4o 0513,Qwen2.5 72B-Inst。

这已经是一个足够好的开源模型,但真正让其受到大量关注的,是DeepSeek在技术论文中表示,DeepSeek-V3模型总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需十分之一。这也是DeepSeek-V3引起Meta关注的核心表现之一。

让这番关注量级再上一层楼的,是DeepSeek一周以前发布的推理模型R1。

1月20日,DeepSeek发布性能对齐OpenAI-o1正式版的DeepSeek-R1,并同步开源模型权重。它在数学、代码、自然语言推理等任务上与OpenAI-o1-1217基本持平,尤其在AIME 2024(美国数学邀请赛)、MATH-500、SWE-Bench Verified(软件开发领域测试集)三项测试集上以微弱优势取胜。

作为对R1能力的一种验证,由660B版本R1蒸馏得到的多个小尺寸模型中,32B和70B两款模型在多项能力上能够与OpenAI o1-mini对标。并且,这些蒸馏模型分属Qwen系列和Llama系列,其中,14B Qwen系列蒸馏模型,其各项推理类测试集表现已经明显好于QwQ-32B-Preview。

它当时更引入注目的是同步开源了DeepSeek-R1-Zero,这是一个仅在预训练基础上加入了RL(强化学习)而没有经过SFT(监督微调)的成果。

由于没有人类监督数据介入,R1-Zero在生成上可能存在可读性较差、语言混杂的现象,但该模型仍然足以对标OpenAI-o1-0912。它更重要的意义是探索出了仅通过强化学习训练大语言模型就能获得推理能力的技术可能性,为相关后续研究提供了重要基础。

在训练方式上,DeepSeek利用了数千条长CoT冷启动数据,先是对DeepSeek-V3-Base这一基础模型进行微调。随后进行面向推理的大规模RL训练,并引入语言一致性奖励克服语言混杂问题。经历监督微调之后,R1又进行了适用于所有场景的强化学习,对推理数据和一般数据采用不同的奖励规则。

另外,R1在强化学习中加入了组相对策略优化算法(Group Relative Policy Optimization,GRPO),从效果上来说,它能够优化策略、提高样本效率和增强算法稳定性等。

至此,回到DeepSeek的近期表现上,它的确刷新了开源大模型的最好性能表现,但一名大模型行业投资人对界面新闻记者表示,仍要理智看待DeepSeek,这家公司不需要被神话。

他认为,DeepSeek-V3的确是当前最好的开源模型,但说它能够与头部闭源模型打擂台还为时尚早。另外,在GPT-4出现近两年时间里,开源大模型的算法、框架及系统都在同步更新迭代,DeepSeek此时做出大概为GPT-4三分之一参数大小的V3模型,实际上是一件顺其自然的事。

杨立昆也有类似的观点表达,他在前述推文中提到,DeepSeek自身也“从开源研究和技术中获益”。“他们提出了新想法,并基于其他人的工作进行创新。由于他们的工作是公开和开源的,所有人都能从中获益。这就是开源研究和开源技术的力量。”

一名AI从业者则对界面新闻表示,在前期探索者的基础上,DeepSeek的确可以少做很多倍次实验。

而对于R1,它在没有加入过程奖励模型(只有结果奖励模型)和蒙特卡洛树搜索等更复杂技术的前提下,便实现了o1水平的推理性能。

并且,这种纯RL训练方式让R1自己学会了Longer-chain reasoning(长链推理)和Reflection(反思),这是一种“自我进化”能力,被认为是大语言模型学会自我反思、可以自我纠错的“aha moment”。

不过,在一些行业人士看来,R1也可能存在自己的局限。一方面,过程奖励和树搜索技术,是否是模型进一步提高推理能力的关键方法,外界还无从得知。另一方面,前述行业人士对界面新闻记者指出,R1目前的知识范围不会超过OpenAI o1。

事实上,前不久在OpenAI年底发布季上亮相的o3和o3-mini,性能相比o1又猛长了一大截。从o1到o3,OpenAI公布的间隔时间仅有三个月,显然强化学习带来的推理阶段scaling up的技术范式,要比GPT系列模型以年为单位的预训练范式的节奏快得多。这意味着国内大模型公司仍有加速创新的竞争压力。

技术热议之外,真正让DeepSeek接住这番“泼天流量”的,也在于这家公司近期战略性上线了C端(用户)智能助手应用,让大众可以直观感受V3和R1的技术价值。这股热浪甚至一度至其服务“宕机”。

DeepSeek AI智能助手同样是一款ChatBot类应用,在社交平台上,用户分享自己与它的对话也成为一种热潮。性能强大、价格便宜是大家普遍强调的特点,游戏科学创始人兼CEO、《黑神话:悟空》制作人冯骥将其形容为“可能是个国运级别的科技成果”。但除此以外,一些用户评论显示,在不同场景需求下它也存在自己的短板。

从一家公司的发展脉络来看,DeepSeek真正的价值还体现在,它证明了一个短小精悍、扁平高效的组织架构,可能才是面向AGI(通用人工智能)的大模型研发可以依赖的创业形态。

在DeepSeek发布R1后不久,Meta首席执行官扎克伯格表示,Meta计划在2025年投入超过600亿美元,进一步加大对人工智能的投资。由此,DeepSeek的低训练成本和高创新效率对于AI大模型行业的价值可见一斑。

如今,值得行业正视的现实是,DeepSeek从创业理念、人才组织再到研发成果,都是中国企业中可以面向OpenAI、Meta等开闭源大模型公司与之一战的存在,但无需借此将它推上神坛。

这是DeepSeek从成立之初就已经内化的目标。创始人梁文峰在此前接受采访时表示,“我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大蒜再次被点名!医生发现:吃得越多,结肠癌患者病情或好转?

大蒜再次被点名!医生发现:吃得越多,结肠癌患者病情或好转?

橘子约定
2026-05-17 22:38:48
公开辟谣!哈珀父亲否认向马刺索要首发:位置是靠自己打出来的

公开辟谣!哈珀父亲否认向马刺索要首发:位置是靠自己打出来的

罗说NBA
2026-06-21 08:34:11
宝马全新一代 X5 曝光:换脸换芯,2026年还要让你掏钱包?

宝马全新一代 X5 曝光:换脸换芯,2026年还要让你掏钱包?

音乐时光的娱乐
2026-06-19 14:41:52
双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

萌兰聊个球
2026-06-21 21:49:55
马科斯政府收到警告,弹劾副总统之时,当心菲律宾“改天换日”

马科斯政府收到警告,弹劾副总统之时,当心菲律宾“改天换日”

九分看世界
2026-06-21 17:10:30
赛后连夜驱逐!美国亲手撕碎体育公平,伊朗打赢了最硬的尊严之战

赛后连夜驱逐!美国亲手撕碎体育公平,伊朗打赢了最硬的尊严之战

离离言几许
2026-06-21 22:52:11
大暴雨,特大暴雨!梅雨季全面开启!

大暴雨,特大暴雨!梅雨季全面开启!

环球网资讯
2026-06-21 17:17:13
美伊协议生效,以色列发动空袭,万斯发出警告,伊朗已关闭霍峡

美伊协议生效,以色列发动空袭,万斯发出警告,伊朗已关闭霍峡

离离言几许
2026-06-21 22:51:41
因为恢复女装后反差太大!直接让观众怀疑换了演员了!

因为恢复女装后反差太大!直接让观众怀疑换了演员了!

白宸侃片
2026-06-19 13:39:21
36岁男子深夜猝死!吉林网友发帖哭诉,顶梁柱倒了,这个家咋过啊

36岁男子深夜猝死!吉林网友发帖哭诉,顶梁柱倒了,这个家咋过啊

火山詩话
2026-06-21 13:02:26
“马宁被球员围攻”上热搜,外国球迷赞其“大师级执法”

“马宁被球员围攻”上热搜,外国球迷赞其“大师级执法”

上观新闻
2026-06-21 14:37:04
上海“单身霸总”患绝症,临终前托付母亲和房产!上百名美女被搭讪,聊天记录惊人…

上海“单身霸总”患绝症,临终前托付母亲和房产!上百名美女被搭讪,聊天记录惊人…

极目新闻
2026-06-21 10:54:45
刘亦菲彭冠英交往细节曝光,38岁再牵手暖心画面

刘亦菲彭冠英交往细节曝光,38岁再牵手暖心画面

观察者海风
2026-06-20 18:17:32
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
马云预言成真?刘强东宣布:快递员将彻底消失,70万兄弟怎么办?

马云预言成真?刘强东宣布:快递员将彻底消失,70万兄弟怎么办?

一个有灵魂的作者
2026-06-21 20:38:33
颜值出众降价力度大!5月市场表现稳定!奔驰GLE销量又接近2200台

颜值出众降价力度大!5月市场表现稳定!奔驰GLE销量又接近2200台

刘哥谈体育
2026-06-19 10:49:01
刘浩存现实长什么样?路人镜头暴露真实颜值,突然理解张艺谋了

刘浩存现实长什么样?路人镜头暴露真实颜值,突然理解张艺谋了

真的八卦小学弟
2026-06-20 17:00:08
苏东:日本两次进球都“反常理”,说明他们研究了比赛心理学

苏东:日本两次进球都“反常理”,说明他们研究了比赛心理学

懂球帝
2026-06-21 23:22:09
真的难!5月燃油B级车销量排名:帕萨特丢冠,雅阁第8,君威第16

真的难!5月燃油B级车销量排名:帕萨特丢冠,雅阁第8,君威第16

沙雕小琳琳
2026-06-21 12:26:01
A股,周末传来一个“重大利好”信号,明天,或将迎来大变盘!

A股,周末传来一个“重大利好”信号,明天,或将迎来大变盘!

夜深爱杂谈
2026-06-21 18:23:28
2026-06-22 00:24:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1110636文章数 1336181关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

头条要闻

媒体:两大核武国家“水仗”升级 巴基斯坦陷入恐慌

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

艺术
房产
数码
旅游
公开课

艺术要闻

沃尔顿家族出资!美国一座新型大学吸引各界目光

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

数码要闻

极摩客EVO-X3 4T桌面AI超算中心即将预售 Lisa SU亲签

旅游要闻

上海罕见明代古城墙!岳碑亭藏忠义,魁星阁载尽浦东文脉

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版