DeepSeek光芒盖过“六小龙”，大模型的天平往哪里倾斜了？|算法|引擎|kimi|全球开发者社区|deepseek

分享至

大模型行业风向标快速转动有时令人猝不及防。去年C端大模型应用做得声量最大的国内厂商中，一定有豆包和Kimi。但如果最近再去看苹果中国区免费版APP排行，会发现，第一名是DeepSeek，腾讯元宝搭载DeepSeek并大方投流后，也冲到了榜单第二名。

有没有搭上DeepSeek“概念”，成为近期C端大模型应用火不火的重要因素。这样一家原本鲜少出现在大众视野中的公司，不仅在改变APP的排行，也在冲击大模型竞争格局。

多名受访的AI业内人士表示，DeepSeek的技术实力过硬且选择开源，这对一些闭源公司造成了冲击，一些大模型团队需要反思自身的做法。然而，DeepSeek的一些特质，例如未依靠外部融资、几乎只做基础研究，却很难被其他团队复制。一些业内人士近期在冷静地评估并思考如何从这个同行身上学习。

“DeepSeek有些工作给了大家很大的启示，例如在看得很准的方向上聚焦发力，就容易有收获。”面壁智能CEO李大海告诉第一财经记者。但他也提到，要客观理性地看待DeepSeek的成功，如果一个公司完全学习DeepSeek的做法，不一定意味着会取得下一次成功。

重估DeepSeek

2月26日，DeepSeek如约开源了第三个代码库，接下来几天还会继续开源两个代码库。开源让业界有所受益。国内某大模型厂商的大模型研究人员acedar告诉记者，DeepSeek的创新成果都很实用，其他大模型团队可以直接用上，这会让国内大模型水平全面提升。

拔高大模型整体水平的同时，在业内，DeepSeek更像一个搅局者，让其他大模型厂商显得有些尴尬。科技大厂之外，去年，国内站在聚光灯下的还是六家大模型创业公司，它们的估值可能都超200亿元，而DeepSeek没有出现在融资大战中，也鲜有营销动作，甚至有些默默无闻。正是这样一家公司，光芒一下子盖过了“六小龙”，给行业竞争带来了新变数。

要怎么评估这样一个竞争对手？DeepSeek是否在技术水平上也完全压过其他厂商？除了赞赏，业界近期也出现了一些不同的声音，认为不能抛开开源的影响力，只站在技术优势的角度看待DeepSeek的爆火。一种看法是，DeepSeek-R1推出更像是Llama开源的时刻，而非ChatGPT面世的时刻，R1爆火很大程度上是建立在OpenAI闭源收费的错误策略上。

“如果R1是个闭源模型，一定不会达到现在这种‘出圈’的效果。”复旦大学计算机科学技术学院教授邱锡鹏在一个线上直播中表示。“R1受关注的原因一是低成本，二是效果好，三是开源。之所以Meta的模型开源没有DeepSeek影响力这么大，是因为效果比不上R1。R1大模型所在的头部大模型阵列中，其他模型是闭源的，这种情况下，R1才会对所有大模型公司都造成巨大冲击。”新浪微博新技术研发负责人张俊林也告诉记者。

李大海向记者分析，DeepSeek的做法成功了，背后既有必然性，也有偶然性，必然性在于复刻出了OpenAI o1模型的高阶推理效果，且模型开源。同时，此次DeepSeek增长速度很快，与推出时间点也有关系，春节期间正值国内社交性聚集高峰，传播效应高于平时。

从技术难度看，也有一些业界人士分析，DeepSeek能在较短的时间内复现o1的水平，本身就存在一些可预见性。DeepSeek-R1并非纯基座模型，而是基于DeepSeek-V3。一名国内大模型头部厂商研发人员告诉记者，R1的性能在较短时间内追赶上o1背后，是o1的技术壁垒相对较小，在算法方案探索出来后，研发就变得简单。对比之下，复现GPT-4这种基座模型有更多影响因素，例如算力部署、数据准备、工程基建等，这些因素缺一不可。在R1做出来之前，DeepSeek的基座模型已经有了，各种基建也已经准备好了，这是R1能迅速推出的重要原因。

张俊林甚至认为，做出R1耗时本来就不需要多，R1成本估计只是10万美元级别乃至更低。对比之下，复刻GPT-4这种纯基座模型，大模型团队遇到算法变向耗时可长达2个月、耗费高达几千万元。“R1主要采用的是很主流的技术，这意味着大模型团队即便是穷举各种主流技术，也能最终试出正确路线，且单次尝试的时间和金钱成本不高。”张俊林认为。

认可DeepSeek团队技术能力的同时，一些AI领域从业者近期也在分析R1仍存在的缺点。邱锡鹏认为，R1还存在过度优化的问题，例如经常会用到一些非常高端的词汇，且R1在通用任务上的推理效果还不太理想，其背后是强化学习的泛化性需要进一步研究。

记者了解到，DeepSeek掀起AI使用热潮后，国内一家互联网公司近期在内部举行了一次讨论，探讨DeepSeek等AI技术在工作中的实际使用情况。有员工在会上就提到DeepSeek-R1的优缺点，称R1适合金融、医疗、教育等要用到推理思考逻辑的场景，但不适合对局部进行处理的场景，例如让DeepSeek写一段函数。在不需要上下文理解的情况下，使用非推理思考路径的大模型反而效果更好。

DeepSeek对应用场景也有所侧重，这意味着，DeepSeek模型不一定适合所有场景。一名芯片厂商高管告诉记者，R1-671B是一个很大的模型，该公司测算下来，全量部署R1且让R1能理解180K上下文，至少需要用到64台机器。在部署机器量庞大、系统成本很高的情况下，单个用户token成本可以做到很低，可以把并行用户量做到非常大。他由此判断，DeepSeek未来的商业策略将是面向To C场景，而非To B或私有化部署。

DeepSeek的创新工作并非能被其他大模型公司全部采用。李大海告诉记者，面壁智能在R1发布前就关注并学习了DeepSeek的很多工作和技术思路。然而，DeepSeek的工作主要面向云端的高并发场景，而面壁智能则聚焦于端侧场景，服务单一用户的专属模型。端侧场景需要解决的主要问题是功耗足够低、响应足够快，这与云端场景有很大差别，很多DeepSeek的设计思路不能直接用。

天平往开源倾斜了

DeepSeek-R1不是大模型竞争的终局，OpenAI的下一代推理模型o3计划融入GPT-5并在几个月内推出，马斯克旗下的AI公司xAI也已向OpenAI和DeepSeek发出挑战。DeepSeek能否赢得下一局对弈仍存变数。但可以确定的是，它为行业竞争带来了更深远的影响，使得开闭源的天平开始向开源一侧倾斜。

OpenAI CEO奥尔特曼在2月o3-mini发布当天表示，OpenAI的开源政策站在了“历史错误的一边”，需要想出一个不同的开源策略。有业界人士分析，OpenAI的“傲慢之罪”在于隐藏o1的思考过程并采用高收费模式，无法让尽可能多的人感受到深度思考的威力。

在国内，一贯坚持闭源路线的百度也“倒戈”向开源。去年，百度董事长李彦宏还表示，大模型开源的意义不大，闭源模型在能力上会持续领先。今年2月14日，百度就宣布将在未来几个月陆续推出文心大模型4.5系列，并于6月30日正式开源。

从开源的冲击看，能力不如开源模型的闭源模型面临尴尬境地。既然开源模型可以被开发者自行下载、微调乃至私有化部署，就不需要为了使用闭源大模型付费了。

从商业化角度，也有从业者认为，DeepSeek证明了当前开源的正确性。

“从商业层面看，模型行业里，如果一个技术被当成引擎，用于让某个业务做得好，而且这个业务有完整闭环的商业模式，那这个引擎未必需要开源。例如，谷歌搜索引擎、字节推荐系统作为内生引擎不需要开源。”李大海告诉记者，如果OpenAI的商业模式是通过好的引擎更快地产生超级APP，而且这个逻辑走得通，大家能从这个逻辑中赚到很多钱，就会有更多人选择闭源。

李大海告诉记者，实际情况是，现阶段行业“卷”了一年的产品，还没有看到马上会出现基于大模型的超级APP出现的可能，不存在很适合闭源模型的商业模式，商业模式上走开源路线可能是更正确的。从另一个角度看，AGI（通用人工智能）赛道上，模型能力演进是当下最重要的工作，更快让模型成为受关注的核心技术、通过模型智能的绝对提升来获得行业认知和更好的生态，是收益更大的事，开源能让最重要的工作更快被行业感知和接受，“这次DeepSeek的成功让国内更多团队意识到了我说的逻辑。”

李大海告诉记者，开源逐步变成一种范式，能让整个生态的参与者产生信任，这种信任源于两个方面，一是不用担心是纯PR（营销宣传），二是不用担心这个团队未来能否活下来，即便公司没了，大家仍然可以基于开源生态做下一步工作。商业化上，很多开源模型也能通过API（接口）赚钱，甚至因为开源带来的信任，直接拿模型赚钱可以有更大收益。

对比大模型厂商以闭源模型为基础打造应用的方式，站在大模型智能演化的角度，也有从业者认为，当前追求模型智力水平更重要。张俊林表示，只要提升基础模型智力水平，很多应用的壁垒会越来越薄，有一种可能是，在基座模型智力增加的情况下，只需少量某领域的数据就能做好该领域的任务，那么，大模型厂商尽早做应用、形成数据壁垒的逻辑就不成立。

DeepSeek之外，李大海告诉记者，面壁公司内核也完全拥抱开源。还有一些厂商也传来了开源的消息，奥尔特曼近日在社交平台提出两种开源模型的方向并发起投票调查，阿里巴巴2月25日晚则开源了视频生成模型万相2.1。

格局未定

可见的是，DeepSeek增加了AI的渗透。月之暗面Kimi暂缓了“烧钱”投放后，知情人士回应称，原因是DeepSeek热潮带动大众对AI的认知，包括Kimi在内的几个主要产品自然增长实现翻倍。“由于DeepSeek的原因，我们看到很多还在犹豫的行业开始更积极拥抱AI了，很多客户找到我们，这对行业来说是多赢的。”李大海告诉记者。

更难看到的是，DeepSeek如何改变业内其他公司的处境。一名去年还在犹豫要不要投资大模型的投资人告诉记者，投资大模型厂商的风险在于高估值、哪家能跑出来具有不确定性，但目前来看，随着DeepSeek在越来越多场景被使用，DeepSeek的确定性增强了，他认为，大模型行业将会有互联网赢家通吃的特点，甚至未来可能只会有一个基础模型， DeepSeek的出现和开源的做法让大模型行业洗牌变得更快。

李大海则认为，AI还在快速演进，AGI则是比较远的目标。“AGI赛道的比拼是长跑，是马拉松，现在只跑了一段，可能跑了5公里、10公里，所以未来大家还有机会。”李大海说，在这个过程中，团队人才密度、对未来技术的视野都是很重要的特质。

能否复制DeepSeek的成功，也是一个近期被热议的话题。作为一家不依赖外部融资、以基础研究为主且不着急布局商业化的公司，DeepSeek有足够多与其他公司不同的特质。一些分析人士认为，在资金自有基础上的技术理想主义是DeepSeek成功的重要原因，而其他公司很难拥有这种特点。要不要尝试复制DeepSeek，成为摆在其他厂商面前的问题。

清华大学长聘副教授刘知远在一个线上分享中表示，能感受到DeepSeek拥有一个由技术长期主义推出来的结构，“中国已经到了这样一个阶段，需要有更多像DeepSeek这样的团队，但是又不像DeepSeek这么有钱，能不能让他们踏踏实实地做一些创新？这非常值得我们思考。”

立足现实，acedar告诉记者，DeepSeek以研究为目的，不计较短期回报，而其他创业公司和大型科技企业则面临各种牵绊。DeepSeek的模式虽然带来了冲击，但业内究竟有多少团队会付诸实践，仍是一个疑问。

“每家公司有每家公司的禀赋，不同领域有不同领域的问题。并非完全学习DeepSeek的做法就一定会取得成功，这是刻舟求剑。”李大海则认为，在基础研究和商业应用的优先级上，面壁的答案是基础模型，但面壁可能不会与DeepSeek完全一样。“我们觉得商业应用也非常重要，因为端侧离用户更近，应该用商业落地去同步验证基础模型演进对用户的实际效用，做端侧大模型两手都要抓。”

“回顾历史上的创新，它们的模式都不一样，本质上都是在专注的领域解决一些复杂、有限制因素的问题。”李大海告诉记者，DeepSeek有很好的现金流，可以不断补贴大模型团队，这当然是比较理想的状态，研究员可以更心无旁骛地做科研，但当有更大限制、需要用更少的钱做事的时候，限制可能也会激发意想不到的创新，DeepSeek的创新从矛盾中生发的，即又要模型聪明、又不要太贵，“面壁在端侧大模型也要面对很多矛盾，例如让模型聪明、功耗还低，限制条件可能激发创新，我们也不认为要像DeepSeek一样自己有非常多钱，才能做出这样的创新。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.