网易首页 > 网易号 > 正文 申请入驻

DeepSeek新版本发布,速度更快,成本更低

0
分享至



日前,DeepSeek-V3.2-Exp模型正式发布。这是一个实验性版本,主要针对长文本的训练和推理效率进行了探索性的优化和验证。

此次发布的核心突破在于使用了一种有别于传统的注意力机制——稀疏注意力,在性能基本不变前提下,大幅提升了效率并降低了成本。

稀疏注意力有何特别之处?如何同时做到速度更快、成本更低?解放日报记者专访了上海交通大学人工智能学院赵沛霖教授。

【从“一一逐个看”变为“挑重点看”】

“尽管稀疏注意力这一技术方向并非DeepSeek首创,但真正在如此大规模的模型上实施,并使得计算量和成本都大幅度下降,DeepSeek是第一个做到的。”赵沛霖介绍,他本人就曾在2020年发表的一篇论文中使用这一技术来预测电力。

要理解稀疏注意力,不妨先来看一下传统的自注意力机制。2017年,谷歌在一篇具有开创意义的论文中提出了Transformer架构,其核心正是自注意力机制。

“当时谷歌引入自注意力机制,主要是为了优化翻译功能,因为仅仅关注文字本身和相邻的信息远远不够,有时候需要观察上下文才能准确翻译。”赵沛霖说。

目前绝大多数有影响力的大语言模型,都是以Transformer架构为核心。自注意力机制相当于在预测每个字时,需要计算当前预测的字与过去所有字的相关性。如此带来的计算复杂度和内存消耗之大,可想而知。

有意思的是,谷歌这篇论文本身就已经意识到了自注意力机制的计算缺陷。作者简要提到了可以使用局部注意力或稀疏注意力来降低计算复杂度。这表明,从Transformer诞生第一天起,研究如何让注意力“稀疏化”的思想就已经存在了。

与“面面俱到”的自注意力不同,稀疏注意力让AI模型处理信息时学会了“抓关键”,从“一一逐个看”变为“挑重点看”,计算复杂度自然大大下降。

尤其值得一提的是,DeepSeek是在参数量为6710亿如此大规模的模型上,验证了这一稀疏注意力机制。

在赵沛霖看来,这是DeepSeek的一种尝试,后续可能在稀疏注意力机制之外,会补充一些低成本的线性注意力。线性注意力也是一种速度很快的方法,为稀疏注意力可能遗漏关键信息起到“打补丁”作用。“现在很多公司都在研究线性注意力,但效果并不佳,未来‘稀疏+线性’可能会是一条比较优化的路径。”

【仅用1/4算力便可与前代模型能力基本持平】

从目前各领域的公开评测集来看,DeepSeek新版本的效果与之前基本持平,但长文本推理速度比前代版本快2-3倍,内存占用降低约30%-40%。

“我粗略估算了一下,它保持了上代模型90%以上的性能,但计算量减少了约75%,相当于仅用1/4算力便可与前代模型能力基本持平。”赵沛霖说。

随着新版本的发布,DeepSeek也公布了新的价格政策,百万tokens(文本的基本单位,可以理解为字或词)的输出价格仅为3元人民币,差不多是国外大模型均价的1/30到1/20,开发者调用API的成本相较过去将降低50%以上。无怪乎有网友惊叹,这是新时代的“水电气”。

速度更快、成本更低,除了直接给中小企业和个人开发者带来实惠,还将给产业带来什么影响呢?

赵沛霖认为,一方面这将对我国算力的缓解有所帮助。特别是随着大模型需求量的不断增加,如果能大规模节省算力,也就降低了对目前还是短板的GPU等芯片的需求。

另一方面,对于因成本限制而原本使用小模型的一些产业应用场景而言,如果大模型成本降低,可能直接使用大模型,这样在相应场景中的精度也会提高。

原标题:《DeepSeek新版本发布,速度更快,成本更低|科创观察员》

题图来源:上观题图

来源:作者:解放日报 黄海华

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
莫迪目睹!印度议员当场拆iPhone,震惊全场的真相曝光!

莫迪目睹!印度议员当场拆iPhone,震惊全场的真相曝光!

丹徒生
2025-11-02 07:57:35
《澎湖海战》争议的不是历史

《澎湖海战》争议的不是历史

求实处
2025-11-01 21:15:02
上海63岁儿子与94岁父亲一起居家养老:父亲负责买菜做饭,“除了吃饭各做各的”

上海63岁儿子与94岁父亲一起居家养老:父亲负责买菜做饭,“除了吃饭各做各的”

黄河新闻网吕梁频道
2025-11-01 09:19:32
感觉刘强东已经掌控不住奶茶了奶茶的情商、气场都太强了

感觉刘强东已经掌控不住奶茶了奶茶的情商、气场都太强了

乡野小珥
2025-11-02 15:25:51
玩笑开大了:俄将军们向普京承诺在 11 月1日前攻克乌军前线落空

玩笑开大了:俄将军们向普京承诺在 11 月1日前攻克乌军前线落空

火星宏观
2025-11-01 14:03:15
又一家电巨头官宣造车!夏普联合富士康推出首款纯电MPV,计划于2027年上市

又一家电巨头官宣造车!夏普联合富士康推出首款纯电MPV,计划于2027年上市

红星资本局
2025-11-01 20:51:08
奚梦瑶全家在迪士尼!女儿正脸曝光鼻子有点塌,保姆保镖时刻跟着

奚梦瑶全家在迪士尼!女儿正脸曝光鼻子有点塌,保姆保镖时刻跟着

仙味少女心
2025-11-01 18:17:22
91年我在医院照顾舅舅,顺便帮了邻床大叔,后来才发现他身份特殊

91年我在医院照顾舅舅,顺便帮了邻床大叔,后来才发现他身份特殊

燕无衣
2024-10-05 07:42:26
斯诺克国锦赛:赵心童、肖国栋顺利晋级,奥沙利文6-5绝杀

斯诺克国锦赛:赵心童、肖国栋顺利晋级,奥沙利文6-5绝杀

懂球帝
2025-11-02 18:45:07
牛鬼蛇神现原形!刘欢女儿大婚不到24小时,恶心的一幕出现了

牛鬼蛇神现原形!刘欢女儿大婚不到24小时,恶心的一幕出现了

牛牛叨史
2025-10-31 14:32:11
果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

果然,见完中方,高市早苗连续2天会见台独,外交部的回应不简单

林子说事
2025-11-02 05:56:22
翩翩起舞的小姐姐,黑色瑜伽裤一穿身材好到犯规,时尚感直接拉满

翩翩起舞的小姐姐,黑色瑜伽裤一穿身材好到犯规,时尚感直接拉满

小乔古装汉服
2025-11-01 18:52:37
警惕!广东某广场现“马戏团”团队,把人吸引过来后开始推销药酒…

警惕!广东某广场现“马戏团”团队,把人吸引过来后开始推销药酒…

广东活动
2025-11-02 12:06:45
港星冯淬帆去世,无儿无女无人送终!晚年因一个举动口碑暴跌

港星冯淬帆去世,无儿无女无人送终!晚年因一个举动口碑暴跌

史行途
2025-11-01 12:26:21
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
我妈53岁没一根白发!吃了20年的早餐方子,气血足到素颜发光

我妈53岁没一根白发!吃了20年的早餐方子,气血足到素颜发光

男女那点事儿儿
2025-11-01 14:43:04
初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

初三学生被霸凌者打断肋骨,母亲不去派出所,隔天校园来六辆商务车

悬案解密档案
2025-10-21 09:24:49
安世中国:已建立充足的成品与在制品库存 能够稳定、持续地满足广大客户直至年底乃至更长时间的订单需求

安世中国:已建立充足的成品与在制品库存 能够稳定、持续地满足广大客户直至年底乃至更长时间的订单需求

财联社
2025-11-02 07:34:06
应急管理部副部长、水利部副部长王道席,出任湖南省委常委

应急管理部副部长、水利部副部长王道席,出任湖南省委常委

澎湃新闻
2025-11-02 19:06:31
2025佛山市环两江马拉松取消公告

2025佛山市环两江马拉松取消公告

珠江时报
2025-11-02 18:14:06
2025-11-02 19:39:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
375861文章数 757592关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
房产
艺术
教育
公开课

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

艺术要闻

她被誉为东方梦露,年过半百依然迷倒众生

教育要闻

教育部留学服务中心更新官方学位认证的境外院校!哪些大学落榜?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版