网易首页 > 网易号 > 正文 申请入驻

全球最新排名:DeepSeek-V3夺开源模型第一!是“新瓶装旧酒”还是实质性突破?业内人士详解

0
分享至

2024年12月26日,深度求索(DeepSeek)发布了其最新人工智能(AI)大模型DeepSeek-V3,并同步开源,刷屏中外AI圈。DeepSeek在两年内就成功开发出一款性能比肩国际顶尖的AI模型,成本仅为557万美元,与OpenAI 7800万美元的GPT-4训练成本形成鲜明对比。

聊天机器人竞技场(Chatbot Arena)最新数据显示,DeepSeek-V3排名全模型第七,开源模型第一。竞技场官方表示,DeepSeek-V3是全球前十中性价比最高的模型。在风格控制下表现稳健,在复杂问题和代码领域表现均位列前三。

在长达55页的技术报告背后,DeepSeek将它的技术路线完整地展示给公众。有人称赞它是一次真正的技术突破,但也有人质疑它只是现有优化技术的集成而已,本质上是新瓶装旧酒。

对此,有业内人士告诉《每日经济新闻》记者,DeepSeek-V3是首个创新融合使用了FP8、MLA、MoE三项技术的大模型,可以看作是实质性的突破。

聊天机器人竞技场:DeepSeek-V3位列总排名第七、开源模型第一

最新的聊天机器人竞技场(Chatbot Arena)数据显示,DeepSeek-V3排名第七,成为前十名中唯一的开源国产模型。

DeepSeek-V3模型被评价为国产第一,并且也是全球前十中性价比最高的模型。DeepSeek-V3在风格控制下表现稳健,在复杂问题和代码领域冲进了前三名。

聊天机器人竞技场是目前最知名的大模型评比榜单,用户在平台上同时与两个匿名模型进行对话,提出相同问题,比较它们的回答。根据模型的回答质量,用户选择自己偏好的答案,或选择平局或都不满意。根据用户投票结果,平台使用Elo评分系统更新模型的分数。相比较于其他基准测试,这一评分标准更能反映出真人用户对于大模型的偏好。

AI智能体与大语言模型集成平台Composio也从推理、数学、编程和创意写作四个维度将DeepSeek-V3和目前最流行的两个大模型Claude 3.5 Sonnet和GPT-4o进行了比较。

在推理方面,DeepSeek-V3与Claude 3.5 Sonnet、GPT-4o平分秋色,在个别特定问题上还要表现得更好一点。

在数学方面,DeepSeek-V3比Claude 3.5 Sonnet和GPT-4o要好得多。测试者使用了Gilbert Strang的线性代数(MIT的线性代数入门教材)中的一道题作为测试问题。GPT-4o和Claude 3.5 Sonnet都只能找到一个可能的顶点,而DeepSeek-V3能找出三个顶点。

在编程方面,DeepSeek-V3非常接近GPT-4o的编码能力,但Claude 3.5 Sonnet是表现最好的模型。不过,DeepSeek-V3的定价却极具吸引力。考虑到性价比,如果只是一般使用的话,Composio认为DeepSeek-V3会是更好的选择。

在创意写作方面,Claude 3.5 Sonnet更佳,GPT-4o与DeepSeek-V3相差不大。

但是,DeepSeek现在API的输入价格仅为每百万Token0.1元人民币,而Claude3.5 Sonnet API输入价格为每百万Token 3美元。Composio站在使用者的角度判断,如果用户想要在大模型之上构建应用程序,那么Deepseek-V3是明智之选。DeepSeek-V3的性价比让它成为构建面向客户的AI应用程序的理想选择。

新瓶装旧酒?业内人士:DeepSeek-V3有实质突破,融合三项创新技术

DeepSeek刷屏的另一大焦点便是:它的价格为何那么便宜?

DeepSeek在它长达55页的技术报告里给出了答案:DeepSeek-V3利用混合专家 (MoE)架构来优化性能,在每次处理过程中仅激活6710亿个参数中的370亿个。同时还融合使用了多头潜在注意力(MLA)、FP8混合精度和多token预测等技术进一步提高了其效率和有效性。

有人质疑称,这些技术在很早之前就已经提出过,DeepSeek只是将这些优化技术集成在一起而已。

对此,资深业内人士、技术交流平台北京城市开发者社区主理人猫头虎告诉《每日经济新闻》记者,DeepSeek-V3有实质突破。他认为,作为首个综合实力匹敌Meta的Llama3.1-405B的国产开源大模型,DeepSeek-V3创新性地同时使用了FP8、MLA和MoE三种技术手段。

据悉,FP8是一种新的数值表示方式,用于深度学习的计算加速。相比传统的FP32和FP16,FP8进一步压缩了数据位数,极大地提升了硬件计算效率。虽然FP8是由英伟达提出的技术,但DeepSeek-V3是全球首家在超大规模模型上验证了其有效性的模型。

猫头虎进一步向每经记者表示,这一技术(FP8)至少将显存消耗降低了30%。

Midjourney的AI研究员Finbarr也表示,Deepseek的FP8设置看上去很棒。

此外,相较于其他模型使用的MoE模型,DeepSeek-V3使用的MoE模型更为精简有效。该架构使用更具细粒度的专家并将一些专家隔离为共享专家,使得每次只需要占用很小比例的子集专家参数就可以完成计算。这一架构的更新是2024年1月DeepSeek团队提出的。

AI研究人员马克·贝克在文章中认为DeepSeek的MoE是一个突破性的MoE语言模型架构,它通过创新策略,包括细粒度专家细分和共享专家隔离,实现了比现有MoE架构更高的专家专业化和性能。

但是最令人惊讶的是MLA机制,这一机制也完全由DeepSeek团队自主提出,并最早作为核心机制引入了DeepSeek-V2模型上,极大地降低了缓存使用。不过,DeepSeek-V2模型当时并没有激起什么讨论的热度,只有很少一部分技术人员注意到了这一成果。

当时,开源平台huggingface的技术主管Pjillipp Schmid还在社交平台上为DeepSeek鸣不平:“为什么没有更多的人讨论MLA(多头潜在注意力)机制? MLA被引入DeepSeek-V2中,并帮助将KV-cache的内存减少了93.3%。”

编者注:多头潜在注意力(MLA)是DeepSeek-V2的核心创新,它不仅仅停留在低秩投影的概念上,而是通过更精细的变换设计,实现了在保持推理时KV Cache与GQA相当的同时,增强模型的表达能力。MLA的关键在于其推理阶段的恒等变换技巧,允许模型在不增加KV Cache大小的情况下,利用不同的投影矩阵增强每个头的能力。

图片来源:X

猫头虎向每经记者表示,FP8、MLA和MoE的融合,是AI技术向更高效率、耕地成本发展的典型案例,尤其在DeepSeek-V3的推动下,这些技术展现出了宽阔的应用前景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
张雪峰离世的警示:人一定要学会避谶

张雪峰离世的警示:人一定要学会避谶

代伟看世界
2026-03-26 15:21:09
裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

解读热点事件
2026-03-27 00:05:10
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

近史阁
2026-03-27 03:28:33
意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

里芃芃体育
2026-03-26 16:00:06
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

生物世界
2026-03-25 16:05:30
朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

说历史的老牢
2026-03-26 05:05:53
财政部答中经报记者问:居民参保长护险获财政补助

财政部答中经报记者问:居民参保长护险获财政补助

中国经营报
2026-03-26 19:43:15
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

徐云流浪中国
2026-03-26 14:45:25
1210km续航!长安官宣:新车正式上市

1210km续航!长安官宣:新车正式上市

T科技衍生
2026-03-27 00:31:33
AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

环球网资讯
2026-03-26 19:40:07
巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

懂球帝
2026-03-26 10:52:23
2026-03-27 06:43:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1519847文章数 2724764关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
数码
房产
教育

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

高考冲刺阶段打基础还来得及吗?

无障碍浏览 进入关怀版