刷屏的DeepSeek-V3能力到底如何？国外评测报告：超越迄今为止所有开源模型！自称ChatGPT，真相或指向“AI污染”|算法|大模型|人工智能|deepseek

刷屏的DeepSeek-V3能力到底如何？国外评测报告：超越迄今为止所有开源模型！自称ChatGPT，真相或指向“AI污染”

分享至

“DeepSeek-V3超越了迄今为止所有开源模型。”这是国外独立评测机构Artificial Analysis测试了DeepSeek-V3后得出的结论。

12月26日，深度求索官方微信公众号推文称，旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。

公众号推文是这样描述的：DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

图片来源：深度求索微信公众号

不过，广发证券发布的测试结果显示，DeepSeek-V3总体能力与其他大模型相当，但在逻辑推理和代码生成领域具有自身特点。

更重要的是，深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3，仅花费了约558万美元。其训练费用相比GPT-4等大模型要少得多，据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

消息一出，引发了海外AI圈热议。OpenAI创始成员Karpathy甚至对此称赞道：“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。DeepSeek-V3看起来比Llama-3-405B更强，训练消耗的算力却仅为后者的1/11。”

然而，在使用过程中，《每日经济新闻》记者发现，DeepSeek-V3竟然声称自己是ChatGPT。一时间，“DeepSeek-V3是否在使用ChatGPT输出内容进行训练”的质疑声四起。

对此，《每日经济新闻》记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich，他表示对全新的DeepSeek模型的细节还了解不够，无法给出确切的答案。“但从普遍情况来说，几乎所有的大模型都主要基于公开数据进行训练，因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据（例如，专注于高质量来源的数据）来取得改进。”

每经记者向深度求索公司发出采访请求，截至发稿，尚未收到回复。

国外独立评测机构：DeepSeek-V3超越了迄今为止所有开源模型

针对DeepSeek-V3，独立评测网站Artificial Anlaysis就关键指标——包括质量、价格、性能（每秒生成的Token数以及首个Token生成时间）、上下文窗口等多方面——与其他人工智能模型进行对比，最终得出以下结论。

质量：DeepSeek-V3质量高于平均水平，各项评估得出的质量指数为80。

图片来源：Artificial Anlaysis

价格：DeepSeek-V3比平均价格更便宜，每100万个Token的价格为0.48美元。其中，输入Token价格为每100万个Token 0.27美元，输出Token价格为每100万个Token1.10 美元。

图片来源：Artificial Anlaysis

速度：DeepSeek-V3比平均速度慢，其输出速度为每秒87.5个Token。

图片来源：Artificial Anlaysis

延迟：DeepSeek-V3与平均水平相比延迟更高，接收首个Token（即首字响应时间）需要1.14秒。

图片来源：Artificial Anlaysis

上下文窗口：DeepSeek-V3的上下文窗口比平均水平小，其上下文窗口为13万个Token。

最终Artificial Anlaysis得出结论：

“DeepSeek-V3模型超越了迄今为止发布的所有开放权重模型，并且击败了OpenAI的GPT-4o（8月），并接近Anthropic的Claude 3.5 Sonnet（10月）。

DeepSeek-V3的人工智能分析质量指数得分为80，领先于OpenAI的GPT-4o和Meta的Llama 3.3 70B等模型。目前唯一仍然领先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。领先于阿里巴巴的Qwen2.5 72B，DeepSeek现在是中国的AI领先者。”

广发证券：总体能力与其他大模型相当，逻辑推理和代码生成具有自身特点

12月29日广发证券计算机行业分析师发布研报称：“为了深入探索DeepSeek-V3的能力，我们采用了覆盖逻辑、数学、代码、文本等领域的多个问题对模型进行测试，将其生成结果与豆包、Kimi以及通义千问大模型生成的结果进行比较。”

测试结果显示，DeepSeek-V3总体能力与其他大模型相当，但在逻辑推理和代码生成领域具有自身特点。例如，在密文解码任务中，DeepSeek-V3是唯一给出正确答案的大模型；而在代码生成的任务中，DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面，DeepSeek-V3并未展现出明显优于其他大模型之处。

训练仅花费558万美元，算力不重要了？

除了能力，DeepSeek-V3最让业内惊讶的是它的低价格和低成本。

《每日经济新闻》记者注意到，亚马逊Claude 3.5 Sonnet模型的API价格为每百万输入tokens 3美元、输出15美元。也就是说，即便是不按照优惠价格，DeepSeek-V3的使用费用也几乎是Claude 3.5 Sonnet的五十三分之一。

相对低廉的价格，得益于DeepSeek-V3的训练成本控制，深度求索在短短两个月内使用英伟达H800 GPU数据中心就训练出了DeepSeek-V3模型，花费了约558万美元。其训练费用相比OpenAI的GPT-4等目前全球主流的大模型要少得多，据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

DeepSeek“AI界拼多多”也由此得名。

DeepSeek-V3通过数据与算法层面的优化，大幅提升算力利用效率，实现了协同效应。在大规模MoE模型的训练中，DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施，显著降低了训练成本，以及通过优化MoE专家调度、引入冗余专家策略、以及通过长上下文蒸馏提升推理性能。这证明，模型效果不仅依赖于算力投入，即使在硬件资源有限的情况下，依托数据与算法层面的优化创新，仍然可以高效利用算力，实现较好的模型效果。

广发证券分析称，DeepSeek-V3算力成本降低的原因有两点。

第一，DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的，避开了行业内AI大模型训练过程中的各类问题。

第二，DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销，其训练方法在特定方向的选择也使得其算力成本有所降低。

科技媒体Maginative的创始人兼主编Chris McKay对此评论称，对于人工智能行业来说，DeepSeek-V3代表了一种潜在的范式转变，即大型语言模型的开发方式。这一成就表明，通过巧妙的工程和高效的训练方法，可能无需以前认为必需的庞大计算资源，就能实现人工智能的前沿能力。

他还表示，DeepSeek-V3的成功可能会促使人们重新评估人工智能模型开发的既定方法。随着开源模型与闭源模型之间的差距不断缩小，公司可能需要在一个竞争日益激烈的市场中重新评估他们的策略和价值主张。

不过，广发证券分析师认为，算力依然是推动大模型发展的核心驱动力。DeepSeek-V3的技术路线得到充分验证后，有望驱动相关AI应用的快速发展，应用推理驱动算力需求增长的因素也有望得到增强。尤其在实际应用中，推理过程涉及到对大量实时数据的快速处理和决策，仍然需要强大的算力支持。

DeepSeek-V3自称是ChatGPT，AI正在“污染”互联网？

在DeepSeek-V3刷屏之际，有一个bug也引发热议。

在试用DeepSeek-V3过程中，《每日经济新闻》记者在对话框中询问“你是什么模型”时，它给出了一个令人诧异的回答：“我是一个名为ChatGPT的AI语言模型，由OpenAl开发。”此外，它还补充说明，该模型是“基于GPT-4架构”。

图片来源：每经记者试用DeepSeek-V3截图

国内外很多用户也都反映了这一现象。而且，12月27日，Sam Altman发了一个帖文，外媒指出，Altman这篇推文意在暗讽其竞争对手对OpenAI数据的挖掘。

图片来源：Sam Altman X账号推文

于是，有人就开始质疑：DeepSeek-V3是否是在ChatGPT的输出基础上训练的？为此，《每日经济新闻》向深度求索发出采访请求。截至发稿，尚未收到回复。

针对这种情况产生的原因，每经记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich，他表示，他对全新的DeepSeek模型的细节还了解不够，无法给出确切的答案。“但从普遍情况来说，几乎所有的大模型都主要基于公开数据进行训练，因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据（例如，专注于高质量来源的数据）来取得了改进。”

TechCrunch则猜测称，深度求索可能用了包含GPT-4通过ChatGPT生成的文本的公共数据集。“如果DeepSeek-V3是用这些数据进行训练的，那么该模型可能已经记住了GPT-4的一些输出，现在正在逐字反刍它们。”

“显然，该模型（DeepSeek-V3）可能在某些时候看到了ChatGPT的原始反应，但目前尚不清楚从哪里看到的，”伦敦国王学院专门研究人工智能的研究员Mike Cook也指出，“这也可能是个‘意外’。”他进一步解释称，根据竞争对手AI系统输出训练模型的做法可能对模型质量产生“非常糟糕”的影响，因为它可能导致幻觉和误导性答案。

不过，DeepSeek-V3也并非是第一个错误识别自己的模型，谷歌的Gemini等有时也会声称是竞争模型。例如，Gemini在普通话提示下称自己是百度的文心一言聊天机器人。

造成这种情况的原因可能在于，AI公司在互联网上获取大量训练数据，但是，现如今的互联网本就充斥着各种各样用AI生产出来的数据。据外媒估计，到2026年，90%的互联网数据将由AI生成。这种 “污染” 使得从训练数据集中彻底过滤AI输出变得相当困难。

“互联网数据现在充斥着AI输出，”非营利组织AI Now Institute的首席AI科学家Khlaaf表示，基于此，如果DeepSeek部分使用了OpenAI模型进行提炼数据，也不足为奇。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.