一文讲透关于DeepSeek的7个核心问题 | 峰瑞报告|算法|模态|编程|key|预训练|大模型|deepseek

分享至

2月10日至11日，巴黎举办了人工智能（AI）行动峰会。《纽约时报》称，与过去一个月的所有AI活动一样，巴黎AI峰会上充满了关于中国人工智能企业深度求索（DeepSeek）的讨论，这家中国公司以其强大的推理模型震惊了世界。据《财经》杂志统计，百余家中国公司已经宣布“接入DeepSeek”，覆盖从芯片、算力服务商到AI用户到最终用户各级生态圈。

开年复工后的第一次全员周会上，峰瑞科技组的同事们对DeepSeek进行了深入讨论。本文将通过七个关键问题，剖析DeepSeek爆火的原因及其带来的多维度影响：

DeepSeek为什么这么火？
DeepSeek真正的技术创新是什么？
为什么是DeepSeek？
Scaling law还成立吗？
DeepSeek给其他模型厂商带来什么影响？
DeepSeek对硬件生态带来什么影响？
DeepSeek如何影响应用生态？

此外，我们还在文末总结了部分与此相关的投资机会。

在这个AI技术飞速发展的时代，DeepSeek的故事或许只是开始。

互动福利

你如何看待DeepSeek带来的新机会？欢迎在留言区和我们聊聊~截止至2月25日17:00，留言最走心的5位读者，将获得峰瑞行研手册一份。

/ 01 /

DeepSeek为什么这么火？

第一个问题，我们先来回答DeepSeek到底为什么这么火？

从我们的观察来看，DeepSeek这一轮的爆火，有20%是得益于技术创新，80%是来自于它从开源生态中获得影响力和背后的中国元素。

技术上，简单说，DeepSeek用极低的算力成本，实现了比肩全球一线预训练大模型的能力。以及，DeepSeek第一次真正公开了用强化学习（Reinforcement Learning，简称RL）做推理模型的可能路径。强化学习是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互，学习最佳策略。

实话说，仅靠这些，DeepSeek可能还不足以引起全球范围内如此强烈的反应。

更多的影响力其实要归功于这些创新背后的中国元素。某种程度上，由于海内外的信息差，中国团队这一次推出的大语言模型使人们惊讶——中国AI行业的发展情况可能与OpenAI所代表的最先进水平之间，没有想象中差距那么大。但同时，DeepSeek也引发了很多质疑和讨论。当然，这些都是短期影响。

长期来看，DeepSeek的成功给中国带来了更多进行技术创新的信心，无论是投资人还是创业者，可能都从其中看到了更多的可能性。

另外，开源这件事情功不可没。DeepSeek作为后来者，不像海外大厂，没有什么包袱，所谓“光脚的不怕穿鞋的”。DeepSeek几乎将其所有研究成果都直接开源，打破了OpenAI o1系列模型的垄断地位，这对整个圈子造成很大的冲击。

小结

所以，理性来看DeepSeek出圈这件事，市场情绪因素占大头。当然，我们也不能否认DeepSeek团队确实在技术上做了很多创新。

/ 02 /

DeepSeek真正的技术创新是什么？

DeepSeek从成立至今，一共发过9篇论文。其实在大模型技术圈子里，大家对DeepSeek的技术实力早有认知。

DeepSeek技术创新的答案，在2024年底和2025年年初发布的两篇技术报告——《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，以及它们推出的开源模型之中。

从目前的观察而言，DeepSeek的技术贡献主要体现在工程上的创新。它没有发明新的范式，但在现有技术的基础上进行了大量优化。

让我们着重看看让DeepSeek出圈的核心工作：

一、DeepSeek V2

2024年5月，DeepSeek发布了V2模型，将API（Application Programming Interface，应用程序编程接口）价格大幅降低，定价为每百万tokens输入1元人民币、输出2元人民币，直接将价格打到GPT-4的1/35。

DeepSeek掀起了大模型市场的价格革命。据《21世纪经济报》报道，2024年5月，百度旗下文心大模型两款主力模型全面免费。阿里云紧随其后，将通义千问GPT-4级主力模型的API输入价格从0.02元/千tokens降至0.0005元/千tokens，降幅达97%。

DeepSeek V2的性能已经接近GPT-4，成为性价比极高的选择。可以说，国内其他同行还在努力追赶GPT-4的性能时，DeepSeek已经凭借低价和高性能脱颖而出。

二、DeepSeek V3

DeepSeek V3在V2的版本上，进一步强化了降本增效的能力。V3相当于是对标OpenAI GPT4o的预训练大模型，它以极低的算力成本，实现了和其他模型同等甚至表现更好的结果。

DeepSeek之所以能做到降本增效，可能要归功于团队在工程层面做了大量的工作和创新，比如，在算法软件框架以及配合硬件的实现方面。

在软件上，核心有两点，一个是MoE（Mixture of Experts，专家混合模型）的专家模型架构，“用空间换时间”。

2023年，法国AI公司Mistral AI最早大规模开源MoE模型，它曾经推出Mixtral 8x7B模型，采用了8个专家，每次推理时激活其中的2个专家。

DeepSeek则增加了专家数量，缩小了每个模型的规模。虽然单个专家性能有所下降，但整体性能却因“人多力量大”而提升。

具体来说，DeepSeek的MoE架构把前向推理网络划分成了1个共享专家以及256个独立专家。模型每次预测的时候，只会激活共享专家以及另外256个专家中的8个专家，大大降低了算力消耗。

此外，DeepSeek还在训练过程中通过偏离函数，调整专家负载，避免出现“强者越强，弱者越弱”的马太效应。

虽然MoE架构很有价值，但在不少应用场景里，Dense Model（单一专家模型）也有优势，比如面向B端的专用领域或者端侧小模型。所以，我们也不能完全下定论，认为MoE未来就会“一统江湖”。大家有各自不同的模型架构，选择的应用场景也不同。

另一点，MLA（Multi-head Latent Attention，多头潜在注意力）是DeepSeek成为“价格屠夫”的核心技术之一，这种方法是“用时间换空间”。

大模型推理离不开Attention计算，而Attention计算中，KV缓存（Key-Value 缓存）是主要的存储开销。在Transformer模型的自注意力机制中，输入元素会被转换成查询（Query）、键（Key）和值（Value）这三种类型。KV 缓存就是在推理过程中，把先前步骤计算得到的 Key 和Value矩阵缓存起来，避免在生成新token时重复计算整个序列的Key和Value。

DeepSeek通过矩阵分解的方法，将KV缓存压缩后再投影回高维空间，从而大幅降低了存储开销。这种技术原理简单但非常有效，实现了推理价格骤降。

MOE和MLA结合在一起，降低了模型对硬件算力和显存带宽的需求，因此，DeepSeek让整体成本下降了一个数量级。

前面谈到的是软件架构上的创新，那么在硬件架构实现上，DeepSeek V3第一次公开了很多新的工作。比如，用低精度的FP8（即8位浮点数表示法，是一种用于提高计算效率和动态范围的数据格式）做了大量的计算工作。再比如，通过大量PTX（Parallel Thread Execution，是NVIDIA为其GPU设计的一种并行指令集架构）的底层开发能力，“压榨”硬件的性能，来降低计算和通信的开销。

所以，从DeepSeek V3整体的工作来看，其实没有太多概念创新，大多是站在前人肩膀上，优化了MoE、MLA等已有的方法，但却有极高壁垒的工程创新。

以及，还有一个问题值得我们思考——V3中的这些工作，是团队主动创新的结果？还是只是硬件资源受限情况下的被动选择？如果能有更多更强的算力资源，这些创新是否还会出现，以及是否还有必要？

三、R1 Zero和R1

接下来我们再看看R1 Zero和R1，它们是对标OpenAI o1系列的推理模型。自从o1发布之后，业界和学术界对它的实现方法有很多猜想，甚至还有人说OpenAI团队主动放出了一些不相关或错误的方向来误导大家。

抛开这些猜测不谈，这次DeepSeek发布了R1，实实在在地通过自己的探索，用强化学习实现了比肩o1的推理大模型，并开源了相关的工作，非常厉害。从我们的观察来看，强化学习是通向AGI的一个递进路径，业界已经在尝试这个方向。

为什么在当下，大模型们开始“卷”起了推理能力？

这一趋势的背后，是大模型在开放性问题上难以超越人类的困境。尽管大模型在诸多任务上表现出色，但在需要深度推理和专业知识的复杂问题上，它们仍然面临巨大挑战。

以GPQADiamond基准数据集为例，该数据集专门用于评估模型在复杂问题上的推理能力和专业知识水平。即使是经过博士学术训练的人类，回答这些问题的准确率大约在65%到70%之间。而目前，大多数大模型在这类问题上的表现，仍远低于人类水平。

可喜的是，已经有少数领先的大模型，如DeepSeekR1、OpenAI o1，它们在GPQADiamond等难题上的表现，已经超过经过博士学术训练的人类。

这种进步揭示了行业竞争的焦点正在从单纯的规模扩展转向更深层次的智能优化。推理能力的“内卷”，可能意味着大模型进入了新的发展阶段。

同样是推理模型，R1 Zero和R1有所区别：

R1 Zero是更纯粹的RL-based Model，用DeepSeek自己的预训练模型V3，没有经过任何人类知识的调教，直接用一些数学或者代码的这类有明确“ground truth”（真实值，在机器学习和计算机视觉领域，指的是数据集中每个样本的真实标签或结果）的问题，做强化学习，得到了不错的结果。

R1相比R1 zero，用了更多工程化的方法，也加入了类似模仿学习的SFT（监督微调），进一步提升语言能力和全面性能，用户来说更好友好。

具体的技术细节和评测结果不详细展开了，强烈建议大家去读《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》这篇论文，写得非常清楚、优美。（欢迎你点击文末的“阅读原文”，下载这篇论文）

某种程度上，DeepSeek R1也没有发明任何新范式。OpenAI已经给业界指明了方向，一个是用纯粹的强化学习而非人类反馈做后训练，来提升模型推理能力。

另一个是Test-Time Compute的方法，通过延长推理时间，来提高输出质量。模型不是直接输出结果，而是先推理出中间结果，随着推理时间的增加，最终结果的质量也会提升。这一点在大家用DeepSeek过程中应该都有体会，就是看到的那个中间有点儿自言自语的思考过程。

因此，DeepSeek核心的贡献是帮助强化学习、Test-Time Comput这两个范式快速出圈。相比其他模型厂商，它手比较快，而且直接把工作开源了。

但无论是R1中的强化学习框架GRPO，还是上文提到的用很多数学、代码问题来做reward（奖励机制），都是一些相对常用的方法。DeepSeek R1更多还是靠V3的强大能力，能在有限的搜索空间内找到正确答案，从而帮助模型快速迭代和收敛。打个比方，如果基础模型不够好，可能需要从1万个样本中找到1个正确答案；而好的基础模型，则可以在100个样本中找到正确答案，从而大大加快迭代收敛的速度。

小结

总的来说，DeepSeek的技术贡献主要体现在工程上的创新。尽管它没有发明新的范式，但在现有技术的基础上进行了大量优化，特别是在强化学习应用于推理模型方面。我们需要以更理性的心态来看待DeepSeek爆火。

/ 03 /

为什么是DeepSeek？

为什么是DeepSeek？

首先，从整体上看，模型的发展速度虽然很快，但其实AI行业整体的创新速度放缓了，不同团队的认知差异也在缩小，大家能想到的方法正在逐渐收敛。这种现象跟国别无关，是全球学术界和产业界共通的情况。当技术创新变慢的时候，中国团队的工程能力优势就体现出来了。

第二，我们也不能忽视DeepSeek背后的这家公司——幻方量化，以及其“工程基因”的影响。要做好量化交易，一方面需要有强大的策略，但另一方面，能否以最快的速度执行这些策略可能更为关键。哪怕只是纳秒级别的速度优势，也可能决定你在某次交易中能否赚钱。

幻方量化的基因使得DeepSeek在底层硬件优化和开发方面拥有丰富经验，从而能够加速算法的执行效率。例如，幻方量化在过去面对复杂的量化交易任务时，可能需要对FPGA（现场可编程门阵列）进行深度定制研发，并在C语言中嵌入汇编语言，以提高硬件调度的效率。

这些工程经验已经体现在DeepSeek的V3版本中。比如，在优化GPU时，DeepSeek大量使用了在量化中交易中经常用到的底层开发思路，选择“绕过CUDA”，直接使用PTX进行编程，从而进一步提升性能。

第三点，DeepSeek的商业模式和开源文化，支撑了他们的长期发展。这种长期性能够帮助团队建立研究导向和创新的文化。DeepSeek可能没有短期的营收和商业化压力，反而能吸引更多真正想做事的人才，“做正确而非容易的事情”。

小结

DeepSeek的成功源于多方面的优势：在AI行业整体创新放缓的背景下，中国团队的工程能力优势凸显；孵化公司幻方量化在硬件优化和高效执行方面的经验影响了DeepSeek；DeepSeek的商业模式和开源文化，使团队能够专注于技术创新而非短期商业化压力。

/ 04 /

Scaling law还成立吗？

DeepSeek发展到了今天，那么大模型的未来会走向哪里？Scaling Law（缩放定律）还会成立么？

大模型最开始出现时，其根基就是Scaling Law。Scaling Law描述了随着数据量、计算资源和模型参数的增加，语言模型性能如何显著提升。具体来说，从GPT到GPT-4，研究人员通过增加更多的数据、算力和模型参数，使得模型效果显著提高。这种规律为设计更大规模的模型提供了理论依据，并成为近年来大模型发展的核心驱动力。

那么，Scaling Law在未来是否仍然成立？我们可以从三个方面来看。

一、预训练阶段：Scaling Law接近极限

在预训练阶段，目前业界共识是Scaling Law已经接近极限。主要问题在于缺乏新的高质量数据。在这种情况下，盲目增加模型参数可能导致过拟合，也就是说，模型对于见过的数据表现很好，但泛化能力反而下降，从而影响模型的整体性能。例如，OpenAI在开发GPT-5时遇到的困难，也反映了这一挑战。尽管如此，研究者们仍在努力推进。

二、后训练阶段：Scaling Law优势显现

在后训练阶段（post-training），Scaling Law的优势变得更加明显。无论是传统的监督微调（SFT），还是基于人类反馈的强化学习（RL），都能看到这种优势。最新的DeepSeek和其他模型系列已经开始采用基于强化学习的后训练范式，显示出良好的规模效应。

值得注意的是，在后训练阶段，目前所需的算力还相对较少，平均仅占预训练阶段的1%不到。当然，这一比例正在逐渐增加。据业内人士推测，R1的后训练算力占比已经接近10%。如果能进一步扩大后训练的规模效应，那么模型的整体性能有望得到进一步提升。

然而，在后训练阶段，大模型仍面临一些挑战，比如，怎么定义reward，这是做好强化学习的关键；以及获取高质量的数据，特别是专业问答和CoT（Chain of Thought，思维链）数据。目前，学术界和产业界正在探索人工标注和合成数据的方法来解决这些问题。

三、推理阶段：延长推理时间，提升性能

在推理阶段，Scaling Law同样有所体现，比如在上文提到的Test-Time Compute上。模型的输出过程本质上是一个计算过程。如果允许模型有更长的思考时间，它可以通过反复尝试和自我修正来优化答案。例如，模型可能一开始给出简单的答案，但在中间发现错误并进行调整，最终得出更准确的结果。这种方法能够显著提高模型输出的准确性，也是Scaling Law的一个具体表现。

小结

总结来看，Scaling Law仍然成立，只不过应用范式发生了变化，其在后训练和推理阶段依然具有重要意义。

/ 05 /

Deepseek给其他模型厂商

带来什么影响？

首先，我们需要明确一点：DeepSeek目前主要是一个大语言模型，暂时不具备多模态的能力。在与其他有多模态能力的模型进行比较时，需要考虑到这一点。

一、对海外大厂的影响

对于海外的大厂，如OpenAI（GPT-4系列）、Anthropic（Claude 3.5）和Google（Gemini 2.0），这些公司在多模态能力、泛化能力以及工具链开发者生态方面仍然具有显著优势。它们有很多的储备技术，因为战略考虑可能暂时不会都放出来。此外，它们在算力资源上也有明显的优势。

尽管DeepSeek引起了广泛关注，但我们仍需正视与这些海外一线公司的差距，实现真正的超越还有很长的路要走。

就在2月18日，马斯克的xAI 发布了更新版 Grok 3大模型。在直播的现场演示中，Grok 3在数学、科学和编程基准测试中，击败了包括DeepSeek的V3模型和GPT-4o在内的多个模型。

二、对国内模型厂商的影响

在国内市场，DeepSeek对于对面向消费者的（ToC）模型厂商影响较大，对于面向企业的（ToB）模型厂商影响相对较小。

在ToC领域，部分厂商可能会感受到较大的冲击。这些厂商面临的挑战更多在于开源与商业化的选择：如果保持闭源，是否能达到一线模型水平？如果选择开源，是否会颠覆现有的商业模式？

不过，我们不能低估国内其他模型厂商团队的技术创新能力。比如Kimi最新发布的K1.5模型在学术界获得了很高的评价，其工程创新也非常值得学习。

目前来看，ToB的模型厂商也受到了一定的影响。长期来看，企业客户会做出理性决策，但在短期内，可能受市场情绪影响，尝试使用DeepSeek。这有助于教育市场，但长期效果还需观察。

此外，DeepSeek本身其实也要考虑如何持续“接住泼天的富贵”。未来，DeepSeek是否会通过融资扩大规模，还是继续保持小规模专注于研发？我们拭目以待。

三、对开源社区的影响

DeepSeek对开源社区无疑是利好的。DeepSeek爆火，将促使其他开源模型（如Llama）不断创新，而不是固守已有成果。这对整个社区的发展是有益的，同时也促进了闭源厂商的进步。

四、对小模型公司的影响

DeepSeek曾在论文中展示了通过大模型的能力蒸馏（distillation）来提升小模型推理能力的可能性，并同步开源了基于通义千问Qwen或Llama的蒸馏模型。这表明，优秀的“老师”模型可以更高效地指导小模型学习。

这将对自研模型的中小企业产生积极影响。尤其是在端侧部署的应用中，无论是C端还是B端应用，或许能借助这一方法提升性能。

小结

整体来看，DeepSeek虽然在多模态等方面有欠缺，但其无疑在推动行业的发展。我们既不能低估国内团队的技术创新能力，也需正视与这些海外一线公司的差距，想要实现真正的超越，我们还有很长的路要走。

/ 06 /

DeepSeek对硬件生态带来什么影响？

接下来，我们讨论一下DeepSeek对硬件生态的影响。在DeepSeek最火的那几天，它对整个美股市场，尤其是英伟达的股价造成了短期冲击。那么，未来DeepSeek是否会挑战英伟达的地位？

要回答这个问题，我们首先需要了解英伟达的核心壁垒是什么。英伟达的核心壁垒不仅仅在于其单芯片的设计能力，尽管这一点已经非常强大。更重要的是，英伟达通过其芯片互联能力（如InfiniBand、NVLink以及强大的软件生态系统CUDA）形成了一个坚固的生态壁垒。这种生态壁垒是英伟达最核心的能力之一。

了解了英伟达的核心竞争力后，我们可以分析出DeepSeek对英伟达的影响。首先是正面影响：

一、DeepSeek的成功教育了市场，增强了人们对AI应用的信心，并吸引了更多的初创企业尝试开发AI应用。

据业内人士消息，自DeepSeek发布以来，市场上H100和H200等高端GPU的价格有所上涨，这表明更多公司愿意购买这些硬件来开发自己的模型和应用。

二、推动通用GPU的需求。DeepSeek这样的厂商，持续在模型架构方面进行创新，这对英伟达这样的通用GPU制造商是有利的。因为通用GPU更适合用来尝试新的方案和架构，而一些专用芯片可能没那么适合。

然而，DeepSeek也给英伟达带来了一些负面影响，比如英伟达的市场定价策略可能会受到冲击。

原因在于，首先，DeepSeek采用的Mixture of Experts (MoE) 架构显著降低了对芯片间互联能力的要求，从而减少了对高端互连技术的依赖。如果越来越多的模型厂商开始采用MoE或其他类似的架构，将会带来新的硬件机会。

其次，DeepSeek提供了潜在“绕过”CUDA的可能性。DeepSeek提出了适配其模型的硬件架构设计需求，暗示着未来“绕过”英伟达的CUDA生态系统的可能性。

同时，国产芯片对DeepSeek模型的快速适配，也反映了中国硬件行业的潜力。但需要注意的是，DeepSeek团队并没有直接绕开英伟达。DeepSeek使用了比CUDA更底层的编程语言PTX，以便于更好地发挥出硬件性能，而PTX是英伟达的核心技术。

DeepSeek是否推动了除英伟达以外的AI芯片行业的创新机会？这也是我们非常关注的一个热点方向。

短期来看，DeepSeek确实带动了许多低性能卡的应用，包括一些国产卡。只要企业具备足够的工程优化能力，这些卡就能够被用起来，我们也能实现软硬件闭环式的自主创新。

长期来看，AI芯片行业无疑存在新的机会。除了近期备受关注的新硬件架构（如3D堆叠、大规模互联技术和高显存设计）外，编译和软件生态的建设也至关重要。正如我们在讨论英伟达壁垒时所提到的，仅有单芯片能力和互联能力是不够的，整个软件生态系统才是决定其长期成功的关键因素。

▲ 欢迎扫码收听，行云集成电路创始人季宇与峰瑞峰瑞资本副总裁李罡一起聊了聊DeepSeek将给AI产业带来的新机遇。

小结

总的来说，DeepSeek一方面对英伟达带来了挑战，另一方面，也为整个AI芯片行业带来了新的机遇和发展方向。对于行业参与者来说，如何适应这种变化并找到适合自己的发展路径，将是未来需要重点考虑的问题。

/ 07 /

DeepSeek如何影响应用生态？

我们再来讨论DeepSeek对整个应用生态的影响，可以从三个方面来看：

一、提供了低成本方案，完成了市场教育

首先，DeepSeek提供了一种非常低成本的方案，这显然能够为应用（无论是ToC还是ToB）带来更高的投入产出比，并助推更多的行业应用落地。

在短短几周内，DeepSeek完成了全市场的教育，使政府、企业高层管理人员以及普通用户都开始使用相关的大模型。甚至我们的父母都开始用起了大模型。

然而，在短期内，市场可能会存在高估的情况。尤其是在B端，实际落地效果可能会与预期有所偏差。从我们问到的几家企业的反馈来看，客户的呼声很高，但实际测试结果显示，DeepSeek在某些任务上的表现，可能并没有外界传闻的那么领先。

二、验证了大模型蒸馏小模型的可行性

其次，DeepSeek R1验证了大模型蒸馏小模型是可行的，这对于端侧模型部署和应用有很大推动作用。无论是在PC、手机还是其他智能硬件上，部署成本的大幅降低，将推动更多新应用落地。这对于我们投资在端侧部署的应用有重要意义。

三、助推强化学习这种计算范式

从更长期一些来看，DeepSeek影响了强化学习这一计算范式。R1已经验证了这种范式，真正公开了用强化学习来做推理模型的这个可能的路径。

但目前，强化学习的应用范围主要局限在数学或代码等相对客观的领域。未来，这种计算范式是否能够扩展到物理世界，并解决更多现实世界的推理问题，以及如何应用于AI agent和具身智能，是非常令人兴奋且值得探讨的方向。

小结

通过对以上七个问题的探讨，我们可以看到，DeepSeek对AI芯片行业和应用生态产生了深远的影响。

毫无疑问，DeepSeek的贡献令人敬佩。但当前市场是否明显过热？或许对于投资人、创业者以及使用大模型的朋友来说，我们不妨让子弹再飞一会儿，冷静观察一段时间。与此同时，我们期待中国市场能诞生更多像DeepSeek这样的原始创新成果。

/ 08 /

投资机会

一、大模型竞争进入下半场

大模型的竞争已进入下半场。

在丰叔看来，大模型下一步会向轻量化、垂直化、端侧化这三个方向发展。轻量化意味着模型和硬件成本需要收敛，不然能用得起的人有限。垂直化则意味着模型需要在特定能力上收敛，而不是指望一个超大模型解决所有问题。端侧化是指模型必须放到手机、手表、耳机等终端设备上，才能真正实现技术的普及。

▲ 欢迎扫码收听，丰叔和李翔总一起聊了聊春节期间国内外的热点事件。

随着下游应用逐步实现规模化落地，模型训练、微调和推理效率成为行业关注的焦点。

以DeepSeek为代表的创新实践表明，强化学习和长文本生成能力有助于提高大模型输出质量、提升小模型性能。尽管MOE架构增加了软件系统的复杂性，但它显著优化了硬件带宽需求，降低了硬件门槛，使得成本更低的硬件也能高效运行模型。

未来，随着模型能力的进一步提升和总成本的持续下降，AI普惠将成为下一阶段的核心目标。技术的普及将推动大模型在更广泛的应用场景中落地，创造更多商业与社会价值。

二、人机交互发生变化，AI落地的应用临界点似乎已经到来

当下，人与信息、人与机器的交互方式正在发生深刻变化。这种变化将催生新的信息分发渠道和流量入口，推动用户界面和服务形式的创新。另一方面，随着人工智能能力的不断增强以及成本的降低，许多行业都在积极探索AI技术的应用落地。

在这样的背景下，我们应当关注一些在传统软件时代难以实现的“新物种”，例如：

跨领域结合的软件或Agent：通过软件与硬件的深度融合，Agent能够实现更强的独立性和更丰富的功能，从而为用户提供更高效、更智能的服务。
新形态的个人交互终端：随着数字化的进一步普及和多模态技术进步，AI有望接入更多数据，成为人类的“外脑”，帮助我们处理记忆、理解甚至是决策等任务。
新型人力服务外包：将软件能力转化为服务形式进行外包，提供更具创新性和灵活性的新型外包服务，满足不同行业的需求。
未被软件化的行业：这些领域中蕴含着丰富的AI落地机会，值得我们深入挖掘和探索。

展望未来，随着供应链能力的不断提升，中国的AI技术有望进一步拓展海外市场，实现全球化布局。

互动福利

你如何看待DeepSeek带来的新机会？欢迎在留言区和我们聊聊~截止至2月25日17:00，留言最走心的5位读者，将获得峰瑞行研手册一份。

星标峰瑞资本微信公众号

一手商业思考及时送达

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.