网易首页 > 网易号 > 正文 申请入驻

刷屏的DeepSeek-V3能力到底如何?国外评测报告:超越迄今为止所有开源模型!自称ChatGPT,真相或指向“AI污染”

0
分享至

“DeepSeek-V3超越了迄今为止所有开源模型。”这是国外独立评测机构Artificial Analysis测试了DeepSeek-V3后得出的结论。

12月26日,深度求索官方微信公众号推文称,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。

公众号推文是这样描述的:DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

图片来源:深度求索微信公众号

不过,广发证券发布的测试结果显示,DeepSeek-V3总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。

更重要的是,深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3,仅花费了约558万美元。其训练费用相比GPT-4等大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。

消息一出,引发了海外AI圈热议。OpenAI创始成员Karpathy甚至对此称赞道:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。DeepSeek-V3看起来比Llama-3-405B更强,训练消耗的算力却仅为后者的1/11。”

然而,在使用过程中,《每日经济新闻》记者发现,DeepSeek-V3竟然声称自己是ChatGPT。一时间,“DeepSeek-V3是否在使用ChatGPT输出内容进行训练”的质疑声四起。

对此,《每日经济新闻》记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich,他表示对全新的DeepSeek模型的细节还了解不够,无法给出确切的答案。“但从普遍情况来说,几乎所有的大模型都主要基于公开数据进行训练,因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据(例如,专注于高质量来源的数据)来取得改进。”

每经记者向深度求索公司发出采访请求,截至发稿,尚未收到回复。

国外独立评测机构:DeepSeek-V3超越了迄今为止所有开源模型

针对DeepSeek-V3,独立评测网站Artificial Anlaysis就关键指标——包括质量、价格、性能(每秒生成的Token数以及首个Token生成时间)、上下文窗口等多方面——与其他人工智能模型进行对比,最终得出以下结论。

质量:DeepSeek-V3质量高于平均水平,各项评估得出的质量指数为80。

图片来源:Artificial Anlaysis

价格:DeepSeek-V3比平均价格更便宜,每100万个Token的价格为0.48美元。其中,输入Token价格为每100万个Token 0.27美元,输出Token价格为每100万个Token1.10 美元。

图片来源:Artificial Anlaysis

速度:DeepSeek-V3比平均速度慢,其输出速度为每秒87.5个Token。

图片来源:Artificial Anlaysis

延迟:DeepSeek-V3与平均水平相比延迟更高,接收首个Token(即首字响应时间)需要1.14秒。

图片来源:Artificial Anlaysis

上下文窗口:DeepSeek-V3的上下文窗口比平均水平小,其上下文窗口为13万个Token。

最终Artificial Anlaysis得出结论:

DeepSeek-V3模型超越了迄今为止发布的所有开放权重模型,并且击败了OpenAI的GPT-4o(8月),并接近Anthropic的Claude 3.5 Sonnet(10月)。

DeepSeek-V3的人工智能分析质量指数得分为80,领先于OpenAI的GPT-4o和Meta的Llama 3.3 70B等模型。目前唯一仍然领先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。领先于阿里巴巴的Qwen2.5 72B,DeepSeek现在是中国的AI领先者。”

广发证券:总体能力与其他大模型相当,逻辑推理和代码生成具有自身特点

12月29日广发证券计算机行业分析师发布研报称:“为了深入探索DeepSeek-V3的能力,我们采用了覆盖逻辑、数学、代码、文本等领域的多个问题对模型进行测试,将其生成结果与豆包、Kimi以及通义千问大模型生成的结果进行比较。”

测试结果显示,DeepSeek-V3总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。例如,在密文解码任务中,DeepSeek-V3是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面,DeepSeek-V3并未展现出明显优于其他大模型之处。

训练仅花费558万美元,算力不重要了?

除了能力,DeepSeek-V3最让业内惊讶的是它的低价格和低成本。

《每日经济新闻》记者注意到,亚马逊Claude 3.5 Sonnet模型的API价格为每百万输入tokens 3美元、输出15美元。也就是说,即便是不按照优惠价格,DeepSeek-V3的使用费用也几乎是Claude 3.5 Sonnet的五十三分之一。

相对低廉的价格,得益于DeepSeek-V3的训练成本控制,深度求索在短短两个月内使用英伟达H800 GPU数据中心就训练出了DeepSeek-V3模型,花费了约558万美元。其训练费用相比OpenAI的GPT-4等目前全球主流的大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。

DeepSeek“AI界拼多多”也由此得名。

DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。在大规模MoE模型的训练中,DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施,显著降低了训练成本,以及通过优化MoE专家调度、引入冗余专家策略、以及通过长上下文蒸馏提升推理性能。这证明,模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。

广发证券分析称,DeepSeek-V3算力成本降低的原因有两点。

第一,DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题。

第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。

科技媒体Maginative的创始人兼主编Chris McKay对此评论称,对于人工智能行业来说,DeepSeek-V3代表了一种潜在的范式转变,即大型语言模型的开发方式。这一成就表明,通过巧妙的工程和高效的训练方法,可能无需以前认为必需的庞大计算资源,就能实现人工智能的前沿能力。

他还表示,DeepSeek-V3的成功可能会促使人们重新评估人工智能模型开发的既定方法。随着开源模型与闭源模型之间的差距不断缩小,公司可能需要在一个竞争日益激烈的市场中重新评估他们的策略和价值主张。

不过,广发证券分析师认为,算力依然是推动大模型发展的核心驱动力。DeepSeek-V3的技术路线得到充分验证后,有望驱动相关AI应用的快速发展,应用推理驱动算力需求增长的因素也有望得到增强。尤其在实际应用中,推理过程涉及到对大量实时数据的快速处理和决策,仍然需要强大的算力支持。

DeepSeek-V3自称是ChatGPT,AI正在“污染”互联网?

在DeepSeek-V3刷屏之际,有一个bug也引发热议。

在试用DeepSeek-V3过程中,《每日经济新闻》记者在对话框中询问“你是什么模型”时,它给出了一个令人诧异的回答:“我是一个名为ChatGPT的AI语言模型,由OpenAl开发。”此外,它还补充说明,该模型是“基于GPT-4架构”。

图片来源:每经记者试用DeepSeek-V3截图

国内外很多用户也都反映了这一现象。而且,12月27日,Sam Altman发了一个帖文,外媒指出,Altman这篇推文意在暗讽其竞争对手对OpenAI数据的挖掘。

图片来源:Sam Altman X账号推文

于是,有人就开始质疑:DeepSeek-V3是否是在ChatGPT的输出基础上训练的?为此,《每日经济新闻》向深度求索发出采访请求。截至发稿,尚未收到回复。

针对这种情况产生的原因,每经记者采访了机器学习奠基人之一、美国人工智能促进会前主席Thomas G. Dietterich,他表示,他对全新的DeepSeek模型的细节还了解不够,无法给出确切的答案。“但从普遍情况来说,几乎所有的大模型都主要基于公开数据进行训练,因此没有特别需要合成的数据。这些模型都是通过仔细选择和清理训练数据(例如,专注于高质量来源的数据)来取得了改进。”

TechCrunch则猜测称,深度求索可能用了包含GPT-4通过ChatGPT生成的文本的公共数据集。“如果DeepSeek-V3是用这些数据进行训练的,那么该模型可能已经记住了GPT-4的一些输出,现在正在逐字反刍它们。

“显然,该模型(DeepSeek-V3)可能在某些时候看到了ChatGPT的原始反应,但目前尚不清楚从哪里看到的,”伦敦国王学院专门研究人工智能的研究员Mike Cook也指出,“这也可能是个‘意外’。”他进一步解释称,根据竞争对手AI系统输出训练模型的做法可能对模型质量产生“非常糟糕”的影响,因为它可能导致幻觉和误导性答案。

不过,DeepSeek-V3也并非是第一个错误识别自己的模型,谷歌的Gemini等有时也会声称是竞争模型。例如,Gemini在普通话提示下称自己是百度的文心一言聊天机器人。

造成这种情况的原因可能在于,AI公司在互联网上获取大量训练数据,但是,现如今的互联网本就充斥着各种各样用AI生产出来的数据。据外媒估计,到2026年,90%的互联网数据将由AI生成。这种 “污染” 使得从训练数据集中彻底过滤AI输出变得相当困难。

“互联网数据现在充斥着AI输出,”非营利组织AI Now Institute的首席AI科学家Khlaaf表示,基于此,如果DeepSeek部分使用了OpenAI模型进行提炼数据,也不足为奇。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗再次为“台湾有事”言论进行解释,称若台湾有事、美军受到袭击,日本不能袖手旁观,国防部回应

高市早苗再次为“台湾有事”言论进行解释,称若台湾有事、美军受到袭击,日本不能袖手旁观,国防部回应

中国基金报
2026-01-30 07:15:19
沃什提名“引爆”金银重挫,现货白银跌超26%,现货黄金跌超9%!美股指数收跌,特斯拉市值一夜增超3200亿元

沃什提名“引爆”金银重挫,现货白银跌超26%,现货黄金跌超9%!美股指数收跌,特斯拉市值一夜增超3200亿元

每日经济新闻
2026-01-31 07:12:06
反转!马斯克携千万巨款重返共和党阵营,国会大佬集体表态

反转!马斯克携千万巨款重返共和党阵营,国会大佬集体表态

娱乐八卦木木子
2026-01-31 16:33:51
东莞厚街一厂房发生火灾,两名消防员不幸牺牲,拟申报为烈士

东莞厚街一厂房发生火灾,两名消防员不幸牺牲,拟申报为烈士

行走的知识库
2026-01-31 15:29:03
创维退市!“彩电大王”成弃子?

创维退市!“彩电大王”成弃子?

互联网那些事
2026-01-30 18:32:55
吴文忻肝脏肿瘤恶化到晚期,2个女儿含泪替妈妈祈福求助

吴文忻肝脏肿瘤恶化到晚期,2个女儿含泪替妈妈祈福求助

素素娱乐
2026-01-31 10:14:58
“新联合国”组建不到10天,首个退群国家出现了,特朗普麻烦大了

“新联合国”组建不到10天,首个退群国家出现了,特朗普麻烦大了

牛锅巴小钒
2026-01-31 16:04:39
速看!2025年甘肃“打虎”简报来了!

速看!2025年甘肃“打虎”简报来了!

天水在线
2026-01-31 11:43:36
97年村长儿子偷我家鱼,被我揍了,隔天村长上门:我家缺个儿媳

97年村长儿子偷我家鱼,被我揍了,隔天村长上门:我家缺个儿媳

千秋文化
2026-01-01 20:24:44
北京市委、市政府决定:常瑞履新

北京市委、市政府决定:常瑞履新

上观新闻
2026-01-31 09:05:13
刚刚,支付宝实盘榜下架!发生了什么?

刚刚,支付宝实盘榜下架!发生了什么?

金石随笔
2026-01-31 09:58:47
“失业无人管,创业有人查”!这句话刺痛了多少中年人?

“失业无人管,创业有人查”!这句话刺痛了多少中年人?

今朝牛马
2026-01-28 22:04:41
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
英国首相在湖心亭竟然相中了一只“猫”?

英国首相在湖心亭竟然相中了一只“猫”?

上海黄浦
2026-01-31 09:06:13
钱再多有什么用?51岁百亿影帝黄渤如今的现状,给所有人提了个醒

钱再多有什么用?51岁百亿影帝黄渤如今的现状,给所有人提了个醒

喜欢历史的阿繁
2026-01-26 13:20:51
大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

映射生活的身影
2025-12-20 03:39:27
英国首相斯塔默访华期间,英国制药巨头阿斯利康宣布将于2030年前在中国投资超千亿元

英国首相斯塔默访华期间,英国制药巨头阿斯利康宣布将于2030年前在中国投资超千亿元

每日经济新闻
2026-01-29 23:30:42
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
45年最惨!贵金属重挫

45年最惨!贵金属重挫

Wind万得
2026-01-31 08:28:21
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 15:17:13
2026-01-31 18:16:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1474656文章数 2722447关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

正部级王祥喜任上被查 4天前曾主持会议

头条要闻

正部级王祥喜任上被查 4天前曾主持会议

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

亲子
房产
教育
本地
公开课

亲子要闻

想让孩子长高?一定要多学习山东人的这6点

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

教育要闻

新加坡国立大学化学生物工程系张亚敏课题组招聘【生物电子、医疗器件、电化学】博士后

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版