网易首页 > 网易号 > 正文 申请入驻

DeepSeek新版本发布,速度更快,成本更低

0
分享至



日前,DeepSeek-V3.2-Exp模型正式发布。这是一个实验性版本,主要针对长文本的训练和推理效率进行了探索性的优化和验证。

此次发布的核心突破在于使用了一种有别于传统的注意力机制——稀疏注意力,在性能基本不变前提下,大幅提升了效率并降低了成本。

稀疏注意力有何特别之处?如何同时做到速度更快、成本更低?解放日报记者专访了上海交通大学人工智能学院赵沛霖教授。

【从“一一逐个看”变为“挑重点看”】

“尽管稀疏注意力这一技术方向并非DeepSeek首创,但真正在如此大规模的模型上实施,并使得计算量和成本都大幅度下降,DeepSeek是第一个做到的。”赵沛霖介绍,他本人就曾在2020年发表的一篇论文中使用这一技术来预测电力。

要理解稀疏注意力,不妨先来看一下传统的自注意力机制。2017年,谷歌在一篇具有开创意义的论文中提出了Transformer架构,其核心正是自注意力机制。

“当时谷歌引入自注意力机制,主要是为了优化翻译功能,因为仅仅关注文字本身和相邻的信息远远不够,有时候需要观察上下文才能准确翻译。”赵沛霖说。

目前绝大多数有影响力的大语言模型,都是以Transformer架构为核心。自注意力机制相当于在预测每个字时,需要计算当前预测的字与过去所有字的相关性。如此带来的计算复杂度和内存消耗之大,可想而知。

有意思的是,谷歌这篇论文本身就已经意识到了自注意力机制的计算缺陷。作者简要提到了可以使用局部注意力或稀疏注意力来降低计算复杂度。这表明,从Transformer诞生第一天起,研究如何让注意力“稀疏化”的思想就已经存在了。

与“面面俱到”的自注意力不同,稀疏注意力让AI模型处理信息时学会了“抓关键”,从“一一逐个看”变为“挑重点看”,计算复杂度自然大大下降。

尤其值得一提的是,DeepSeek是在参数量为6710亿如此大规模的模型上,验证了这一稀疏注意力机制。

在赵沛霖看来,这是DeepSeek的一种尝试,后续可能在稀疏注意力机制之外,会补充一些低成本的线性注意力。线性注意力也是一种速度很快的方法,为稀疏注意力可能遗漏关键信息起到“打补丁”作用。“现在很多公司都在研究线性注意力,但效果并不佳,未来‘稀疏+线性’可能会是一条比较优化的路径。”

【仅用1/4算力便可与前代模型能力基本持平】

从目前各领域的公开评测集来看,DeepSeek新版本的效果与之前基本持平,但长文本推理速度比前代版本快2-3倍,内存占用降低约30%-40%。

“我粗略估算了一下,它保持了上代模型90%以上的性能,但计算量减少了约75%,相当于仅用1/4算力便可与前代模型能力基本持平。”赵沛霖说。

随着新版本的发布,DeepSeek也公布了新的价格政策,百万tokens(文本的基本单位,可以理解为字或词)的输出价格仅为3元人民币,差不多是国外大模型均价的1/30到1/20,开发者调用API的成本相较过去将降低50%以上。无怪乎有网友惊叹,这是新时代的“水电气”。

速度更快、成本更低,除了直接给中小企业和个人开发者带来实惠,还将给产业带来什么影响呢?

赵沛霖认为,一方面这将对我国算力的缓解有所帮助。特别是随着大模型需求量的不断增加,如果能大规模节省算力,也就降低了对目前还是短板的GPU等芯片的需求。

另一方面,对于因成本限制而原本使用小模型的一些产业应用场景而言,如果大模型成本降低,可能直接使用大模型,这样在相应场景中的精度也会提高。

原标题:《DeepSeek新版本发布,速度更快,成本更低|科创观察员》

题图来源:上观题图

来源:作者:解放日报 黄海华

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
硅胶假身材、抱不起女主、连弓都拉不开!这些男演员到底有多虚?

硅胶假身材、抱不起女主、连弓都拉不开!这些男演员到底有多虚?

说历史的老牢
2025-11-03 09:54:01
善恶终有报!52岁重病缠身的朱迅,早已走上了另一条道路

善恶终有报!52岁重病缠身的朱迅,早已走上了另一条道路

素衣读史
2025-11-03 17:28:16
王家卫好样的,这下全网都知道唐嫣洁身自好了

王家卫好样的,这下全网都知道唐嫣洁身自好了

娱乐故事
2025-11-01 21:36:09
银行美元定存利率普遍降至3%左右

银行美元定存利率普遍降至3%左右

财联社
2025-11-04 07:24:05
2025斯诺克国际锦标赛赛程!11月4日CCTV5、CCTV5+关键节目表单

2025斯诺克国际锦标赛赛程!11月4日CCTV5、CCTV5+关键节目表单

皮皮观天下
2025-11-04 08:36:50
曼联签加拉格尔举棋未定,其难替代卡塞米罗!阿莫林明确买人标准

曼联签加拉格尔举棋未定,其难替代卡塞米罗!阿莫林明确买人标准

罗米的曼联博客
2025-11-04 07:05:59
美军南海坠毁原因已明确,解放军已做好应对,静待特朗普表态

美军南海坠毁原因已明确,解放军已做好应对,静待特朗普表态

文雅笔墨
2025-11-03 08:37:54
墙倒众人推,王家卫再被曝录音仅24小时,郭凯敏一语撕下他的体面

墙倒众人推,王家卫再被曝录音仅24小时,郭凯敏一语撕下他的体面

卿羽飞本尊
2025-11-02 15:26:45
1967年成都军区司令员梁兴初,视察遇地痞挑衅:你们开不出这条街

1967年成都军区司令员梁兴初,视察遇地痞挑衅:你们开不出这条街

大运河时空
2025-10-28 11:19:37
前F1世界冠军狠批:长期居于积分榜首让皮亚斯特里变得自满

前F1世界冠军狠批:长期居于积分榜首让皮亚斯特里变得自满

体育妞世界
2025-11-04 11:48:11
一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

有故事的人
2025-11-04 06:17:05
芋头立大功?医学研究:芋头可在12小时内清除40%肠道垃圾?

芋头立大功?医学研究:芋头可在12小时内清除40%肠道垃圾?

涵豆说娱
2025-11-01 15:34:09
中国正在上演的诡异经济

中国正在上演的诡异经济

难得君
2025-10-29 19:26:55
狂轰74+22+15!三巨头齐发威,火箭豪取四连胜!华盛顿空砍29+12

狂轰74+22+15!三巨头齐发威,火箭豪取四连胜!华盛顿空砍29+12

鬼魅突破上篮
2025-11-04 11:54:29
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
巴西大名单:维尼修斯领衔,法比尼奥、罗克回归,内马尔无缘

巴西大名单:维尼修斯领衔,法比尼奥、罗克回归,内马尔无缘

懂球帝
2025-11-04 02:30:51
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
郑丽文第4波人事任命来了,两岸就统一表态,连胜文发表离职感言

郑丽文第4波人事任命来了,两岸就统一表态,连胜文发表离职感言

时尚的弄潮
2025-11-03 15:07:17
孤胆英雄!国王战掘金,威少15分也带不动,约基奇18+6没出汗

孤胆英雄!国王战掘金,威少15分也带不动,约基奇18+6没出汗

陌识
2025-11-04 11:18:35
性能机皇!华为新机公布:11月6日,即将开售登场!

性能机皇!华为新机公布:11月6日,即将开售登场!

Q科技基地
2025-11-04 11:48:10
2025-11-04 12:31:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
376742文章数 757639关注度
往期回顾 全部

科技要闻

OpenAI“杀”疯了!又一笔380亿大单

头条要闻

牛弹琴:想想不对劲 德国外长又主动给中方打来了电话

头条要闻

牛弹琴:想想不对劲 德国外长又主动给中方打来了电话

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

《繁花》录音事件完整版长达43分钟

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

上汽旗舰智己LS9首发评测 可能是最好开的9系SUV

态度原创

家居
教育
亲子
手机
时尚

家居要闻

年轻态度 功能舒适兼备

教育要闻

“校长啊,不要再逼我了!”35岁女教师患焦虑症,校长却不许请假

亲子要闻

又是母慈子孝的一天,人类幼崽

手机要闻

水冷散热科技狠活 红魔11 Pro+通吃移动游戏

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

无障碍浏览 进入关怀版