网易首页 > 网易号 > 正文 申请入驻

中国银河维持计算机推荐评级:国产开源MoE模型DeepSeek-V2性能媲美GPT-4,大模型价格战拉开帷幕

0
分享至

每经AI快讯,中国银河05月13日发布研报称:维持计算机推荐(维持)评级。

事件:5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。

性能直逼GPT-4Turbo,综合能力位于大模型第一梯队:DeepSeek-V2是一个参数为2360亿的MoE模型,每个token仅激活210亿参数,支持128K的上下文长度。1)纵向对比:对比去年11月发布的DeepSeek67B性能取得显著提升,训练成本节省了42.5%,KV缓存减少了93.3%,最大生成吞吐量提高到了5.76倍。2)横向对比:上下文长度对标GPT-4Turbo(128K);中文综合能力(AlignBench)超越Llama3,在开源模型中表现最强,与文心4.0等闭源模型在评测中处于同一梯队,仅次于GPT-4Turbo;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过MoE开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。

DeepSeek-V2训练计算量降低,推理能力表现高效:DeepSeek-V2训练数据集是由8.1Ttoken的高质量、多源预训练语料库组成,采用的Transformer架构中由一个注意力模块和一个前馈网络(FFN)组成,并且在注意力机制和FFN方面采用了创新架构:一方面设计了MLA(Multi-headLatentAttention)利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,DeepSeek-V2消耗的显存(KVCache)只有同级别Dense模型的1/5-1/100,每token成本大幅降低;另一方面,FFN采用高性能MoE架构DeepSeekMoE,以经济的成本训练强大的模型。我们认为,DeepSeek-V2大幅提升训练效率,训练所需计算量约为GPT-4的1/20,但性能基本上相差无几,目前来看参数是影响大模型性能的关键因素之一,除此之外,架构优化能有效提升降低训练成本,提升训练效率,将成为另一个影响大模型性能的关键因素。

API价格降至约GPT-4Turbo百分之一,大模型价格战即将拉开帷幕,利好AI应用层快速渗透:目前DeepSeek-V2API定价为每百万token输入1元、输出2元(32K上下文),几乎低于所有市面上主流大模型价格,约为GPT-4Turbo的1/100。我们认为,DeepSeek-V2提升数据集质量及优化架构,成本大幅降低,在价格方面提升竞争力,大模型将逐渐进入价格战时期,AI应用将快速渗透。

风险提示:技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险。

每经头条(nbdtoutiao)——大手笔!接盘王健林的万达电影后,知名80后富豪又出手收购字节游戏资产!背后是腾讯?

(记者 胡玲)

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
萧敬腾深夜发声:“我在台北万华长大”,一句话站明自己立场!

萧敬腾深夜发声:“我在台北万华长大”,一句话站明自己立场!

兰子记
2024-05-28 22:21:51
王菲为李嫣庆祝18岁生日,母女抱头灿笑,李亚鹏为女儿准备大礼

王菲为李嫣庆祝18岁生日,母女抱头灿笑,李亚鹏为女儿准备大礼

素素娱乐
2024-05-28 07:11:06
5月28日俄乌:“双杀”俄军雷达,西班牙援乌11亿,多国出新招

5月28日俄乌:“双杀”俄军雷达,西班牙援乌11亿,多国出新招

山河路口
2024-05-28 15:23:36
女子电子厂上班晒真实收入:工作28天日均12个小时,工资到手发了6300多块

女子电子厂上班晒真实收入:工作28天日均12个小时,工资到手发了6300多块

六子吃凉粉
2024-05-28 13:50:46
3500万吨污水直排长江,何谈可持续发展?  新京报快评

3500万吨污水直排长江,何谈可持续发展?  新京报快评

新京报
2024-05-28 19:17:25
气走王毅外长后,日韩的邀请函,在最后一刻,中方终于给了准信

气走王毅外长后,日韩的邀请函,在最后一刻,中方终于给了准信

大佬日志
2024-05-28 08:05:05
媒体人:辽宁男篮已完成和周琦团队的第一次谈判

媒体人:辽宁男篮已完成和周琦团队的第一次谈判

懂球帝
2024-05-28 20:32:10
保时捷只卖44万了

保时捷只卖44万了

华尔街见闻官方
2024-05-28 19:05:38
“发现一个、查处一个”!中央纪委重要内设部门,披露查办“老虎”孙力军案细节

“发现一个、查处一个”!中央纪委重要内设部门,披露查办“老虎”孙力军案细节

政知新媒体
2024-05-28 19:31:46
终于,上海也脱光了!

终于,上海也脱光了!

地产八卦女
2024-05-27 22:34:28
孙春兰,访问意大利

孙春兰,访问意大利

意讯
2024-05-28 20:35:00
不限购后一河南老板来杭,连买8套房!原因亮了

不限购后一河南老板来杭,连买8套房!原因亮了

鲁中晨报
2024-05-28 21:06:05
中国是如何在产业政策上遥遥领先于世界的

中国是如何在产业政策上遥遥领先于世界的

西游日记
2024-05-28 23:59:52
热巴私服大解放!穿裸背裙乘高铁引热议,车上看书却被质疑立人设

热巴私服大解放!穿裸背裙乘高铁引热议,车上看书却被质疑立人设

萌神木木
2023-07-22 17:18:18
中纪委明确:嫖娼的党员,要一律开除

中纪委明确:嫖娼的党员,要一律开除

法律读品
2024-05-28 19:59:04
3-1!女排爆大冷:亚洲冠军大爆发,进攻虐对手64分,中国迎考验

3-1!女排爆大冷:亚洲冠军大爆发,进攻虐对手64分,中国迎考验

知轩体育
2024-05-28 19:07:45
上海的楼市大招,给我看乐了

上海的楼市大招,给我看乐了

中产先生
2024-05-28 13:38:57
55岁恒立体育董事长饶俊跳楼身亡,跳楼地点曝光,妻儿悲痛欲绝

55岁恒立体育董事长饶俊跳楼身亡,跳楼地点曝光,妻儿悲痛欲绝

180°视角
2024-05-28 13:52:02
新政逐渐形成叠加效应,促使武汉潜在购房者入市

新政逐渐形成叠加效应,促使武汉潜在购房者入市

极目新闻
2024-05-26 20:47:06
妻子陪初恋男友法国游玩,下飞机才通知丈夫,返回后直接愣在机场

妻子陪初恋男友法国游玩,下飞机才通知丈夫,返回后直接愣在机场

局内人
2024-05-15 14:12:33
2024-05-29 04:18:44
每日经济新闻
每日经济新闻
中国主流财经全媒体平台。
921658文章数 2697321关注度
往期回顾 全部

科技要闻

4月中国手机需求回升 iPhone出货量增长52%

头条要闻

安徽坍塌居民楼结构脆弱 专家称其"像积木搭在墙上"

头条要闻

安徽坍塌居民楼结构脆弱 专家称其"像积木搭在墙上"

体育要闻

官方:曼城当选环足奖欧洲年度最佳俱乐部,击败皇马、药厂等队

娱乐要闻

昆凌晒三胎正面照,2岁妹妹超像周杰伦

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

三联屏/纯电续航318km 岚图FREE 318官图发布

态度原创

教育
旅游
艺术
房产
公开课

教育要闻

【中招咨询】一文看懂北京八中教育集团招生政策!

旅游要闻

画面曝光!五台山保安与游客起冲突 有人用手捂头

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

有点猛!最新房价:海南每㎡跌了2000多!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版