和众汇富研究手记：DeepSeek，AI 界的新宠儿？|算法|计算量|deepseek|用户开放推理模型

分享至

最近，DeepSeek 无疑成为了 AI 领域中最受瞩目的名字，在全球范围内掀起了一股热潮。1 月 27 日，DeepSeek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜，在美区下载榜上甚至超越了 ChatGPT，一时风光无两。

不仅如此，DeepSeek 的爆火还引发了美股科技股的剧烈震荡。当天美股盘前，英伟达股价大跌超过 12%，市值蒸发预计超 3000 亿美元，微软、谷歌等科技巨头的股价也纷纷下跌。一家中国的 AI 初创公司，为何能在竞争激烈的 AI 市场中脱颖而出，引发如此巨大的关注和震动？它究竟有何独特之处，能够挑战科技巨头们的地位？

与顶尖模型并肩的实力表现

DeepSeek的实力究竟如何？在各项任务的考验中，它展现出了令人惊叹的卓越性能，足以与 OpenAI 等顶尖模型并肩而立。

在数学能力的测试中，DeepSeek-R1 在 MATH 数学基准测试里取得了 77.5% 的准确率，在 AIME 2024 测试中，更是拿到了 79.8% 的分数，这一成绩比 OpenAI 的 o1 还要高。面对复杂的数学问题，其表现丝毫不逊色于 OpenAI 的顶尖模型。

在代码编写领域，DeepSeek 同样表现出色。在 Codeforces 编程竞赛评测中，它取得了 2441 分的成绩，超越了 96.3% 的人类参赛者。无论是编写复杂的算法程序，还是调试代码中的错误，DeepSeek 都能快速准确地完成任务，为程序员们提供高效的辅助支持。当需要开发一个具有复杂功能的软件系统时，DeepSeek 可以协助程序员快速生成代码框架，提供函数实现的思路，甚至能够检查代码中的潜在错误，大大提高了开发效率和代码质量。

在自然语言推理方面，DeepSeek 也展现出了强大的能力。它能够深入理解文本的含义，准确把握语义和逻辑关系，无论是处理日常对话中的语言理解，还是分析复杂的学术文献、新闻报道等，都能给出合理且准确的推断。在分析一篇关于科技发展趋势的新闻报道时，DeepSeek 可以迅速提取关键信息，总结文章要点，并对未来的科技发展趋势做出合理的预测。

这些成绩的取得，充分证明了 DeepSeek 在技术实力上的雄厚底蕴。它的出现，打破了人们对 AI 模型性能的传统认知，让我们看到了国产 AI 模型在国际舞台上的巨大潜力和竞争力。

令人惊叹的成本优势

（一）低成本训练

在 AI 模型的开发过程中，训练成本是一个绕不开的关键因素。而 DeepSeek 在这方面展现出了令人咋舌的优势，犹如一颗璀璨的新星，打破了人们对高成本训练的固有认知。

DeepSeek R1的预训练费用仅为 557.6 万美元，这个数字在 AI 模型训练的成本领域中，简直低得不可思议。要知道，OpenAI 训练 GPT-4o 模型的成本高达上亿美元，相比之下，DeepSeek R1 的预训练费用仅是其不到十分之一。如此巨大的成本差距，就像是一场实力悬殊的较量，DeepSeek 以绝对的低成本优势脱颖而出。

不仅如此，DeepSeek R1 的训练仅在 2048 块英伟达 H800 GPU 集群上运行 55 天就能完成。H800 GPU 是针对中国市场的低配版 GPU，在这样相对低配置的硬件条件下，DeepSeek 依然能够高效地完成训练，并且取得了卓越的性能表现，这无疑是对其技术实力的有力证明。它向我们展示了，AI 模型的训练并非只能依靠昂贵的硬件和巨额的资金投入，通过先进的技术和高效的算法，同样可以在低成本的情况下实现高性能的模型训练。

（二）极低 API 定价

除了训练成本的巨大优势，DeepSeek 在 API 定价上也极具竞争力，为用户提供了高性价比的选择。

DeepSeek R1的 API 服务定价堪称亲民。每百万输入 token 仅收取 1 元（缓存命中）/4 元（缓存未命中），每百万输出 token 收取 16 元。而 OpenAI 最新版 o1 模型的相应收费则分别高达 55 元 / 百万和 438 元 / 百万。这样的价格对比，就如同一个是平价超市，一个是高端奢侈品店，DeepSeek 以极低的价格，让更多的用户能够轻松地使用 AI 技术，大大降低了使用门槛。

技术创新铸就坚实根基

（一）架构创新

在架构方面，DeepSeek 提出的多头潜在注意力机制（MLA）堪称一项突破性的创举。传统的 Transformer 注意力机制在处理长上下文场景时，需要缓存完整的 Key - Value（KV）矩阵，这导致内存占用随着上下文长度的增加而急剧上升，严重限制了模型的处理能力和效率。而 MLA 通过独特的低秩联合压缩机制，巧妙地将 KV 矩阵压缩为低维潜在向量。

这一过程就像是将一个庞大的文件通过高效的压缩算法，压缩成一个小巧的文件包，在需要使用时，又能通过逆变换快速恢复原始维度。在实际应用中，这种压缩方式使得推理时仅需缓存压缩后的潜在向量，内存占用大幅减少了 40% 。这不仅降低了对硬件内存的要求，还大大提升了长文本处理效率，相较于传统架构提升了 3 倍之多。在处理一篇长达数万字的学术论文时，传统模型可能会因为内存不足而无法顺利运行，或者处理速度极为缓慢，而 DeepSeek 基于 MLA 架构的模型则能够轻松应对，快速准确地提取关键信息、总结要点，展现出强大的长文本处理能力。

与此同时，DeepSeek 独创的 DeepSeek MoE Sparse 结构也在降低计算量方面发挥了关键作用。在混合专家模型（MoE）中，不同的专家模块负责处理不同类型的任务或数据特征。然而，在传统的 MoE 架构中，计算量往往较大，因为在处理输入时，需要对所有的专家模块进行计算，然后再进行融合。而 DeepSeek MoE Sparse 结构则通过智能的动态路由机制，能够根据输入数据的特点，精准地激活最相关的专家模块，避免了不必要的计算。这就好比在一个大型工厂中，有多个生产车间（专家模块），传统方式是每个车间都对所有产品进行加工，而 DeepSeek MoE Sparse 结构则能根据产品的需求，直接将产品送到最合适的车间进行加工，大大节省了人力、物力和时间成本。通过这种方式，DeepSeek MoE Sparse 结构显著降低了计算量，使得模型在保持高性能的同时，能够更加高效地运行，进一步提升了整体的性价比。

（二）高效计算

在计算硬件的选择和优化上，DeepSeek 同样展现出了非凡的智慧和前瞻性。DeepSeek R1 采用 H800 核心芯片，这一选择看似普通，实则蕴含着深刻的技术考量和战略布局。H800 芯片虽然在性能上相较于一些高端芯片可能并不具备绝对优势，但 DeepSeek 通过一系列的技术优化，充分挖掘了 H800 芯片的潜力，使其在能耗和计算效率方面展现出了独特的优势。

在能耗方面，DeepSeek 通过对芯片底层架构的深入研究和优化，以及与自身算法的高度适配，实现了能耗的大幅降低。与其他使用类似芯片的模型相比，DeepSeek R1 在完成相同任务时，能耗降低了 [X]% 。这不仅使得模型的运行成本大幅下降，还减少了对能源的依赖，符合可持续发展的理念。在大规模数据中心中，大量的 AI 模型同时运行，能耗是一个不容忽视的问题。DeepSeek R1 的低能耗特性，使得数据中心在运营过程中能够节省大量的电费支出，降低了运营成本。

在计算效率上，DeepSeek 通过优化芯片的计算资源分配、改进算法的并行计算方式等手段，实现了计算效率的显著提升。与传统模型相比，DeepSeek R1 的计算效率提升了 [X] 倍。这意味着在相同的时间内，DeepSeek R1 能够处理更多的数据，完成更多的任务，大大提高了模型的实用性和应用价值。在处理实时性要求较高的任务，如实时语音识别、实时翻译等场景时，DeepSeek R1 的高计算效率能够保证快速响应，为用户提供流畅的使用体验。

开源策略激发无限可能

在当今的 AI 发展格局中，开源已经成为推动技术进步和创新的重要力量，而 DeepSeek 在这方面的战略布局，无疑为其发展注入了强大的动力。

DeepSeek采用了完全开源的策略，这一举措犹如在平静的湖面投下了一颗巨石，激起了千层浪。基于 MIT 许可协议，全球的开发者都可以自由地对 DeepSeek-R1 模型进行修改、使用和分发，甚至可以进行衍生开发和商用。这种开放的姿态，让 DeepSeek 迅速吸引了大量开发者和研究人员的目光，形成了一个充满活力和创造力的开源社区。

在这个开源社区中，开发者们可以充分发挥自己的想象力和创造力，对 DeepSeek 的模型进行优化和改进。他们可以根据自己的需求，调整模型的参数，添加新的功能，或者将其应用到不同的领域中。就像一群充满激情的工匠，在 DeepSeek 提供的基础框架上，打造出各种独具特色的作品。一位专注于医疗领域的开发者，利用 DeepSeek 的模型，结合大量的医疗数据，开发出了一款智能医疗诊断助手，能够帮助医生快速准确地诊断疾病；还有一位从事教育行业的开发者，将 DeepSeek 的模型应用到在线教育平台中，实现了智能辅导和个性化学习推荐，大大提升了学习效果和效率。

开源不仅促进了技术的创新和应用，还降低了 AI 技术的使用门槛，让更多的人能够受益于 AI 的发展。对于小型企业和初创团队来说，他们可以借助 DeepSeek 的开源模型，快速搭建自己的 AI 应用，而无需投入大量的资金和资源进行研发。这就好比为他们提供了一把通往 AI 世界的钥匙，让他们能够在这个充满机遇的领域中一展身手。一家小型的电商企业，通过使用 DeepSeek 的开源模型，开发出了智能客服系统，能够快速响应用户的咨询和投诉，提高了客户满意度和运营效率，为企业的发展带来了新的机遇。

当然，开源策略也并非一帆风顺，它面临着诸多挑战。其中，知识产权保护是一个重要的问题。在开源的环境下，如何确保模型的版权和开发者的权益，是需要认真思考和解决的。同时，开源社区的秩序维护也是一个挑战，如何避免恶意攻击和不良行为，保证社区的健康发展，也是需要关注的。针对这些问题，DeepSeek 可以通过完善相关的法律协议和规则，加强社区管理和监督等方式来应对。制定明确的版权声明和使用规则，加强对开源社区的审核和管理，对违规行为进行及时处理，确保开源社区的良好秩序和健康发展。

DeepSeek以其卓越的性能、惊人的成本优势、领先的技术创新、开放的开源策略以及广泛的应用前景，在 AI 领域中脱颖而出，成为了一颗璀璨的明星。它的出现，不仅为用户提供了强大而高效的 AI 服务，也为整个 AI 行业的发展注入了新的活力，开辟了新的道路。

DeepSeek的崛起是 AI 领域的一个重要里程碑，它让我们看到了 AI 技术的无限潜力和可能性。让我们共同关注 DeepSeek 的发展，期待它在未来能够创造更多的辉煌，引领 AI 技术走向更加美好的明天。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.