网易首页 > 网易号 > 正文 申请入驻

DeepSeek新版本发布,速度更快,成本更低

0
分享至



日前,DeepSeek-V3.2-Exp模型正式发布。这是一个实验性版本,主要针对长文本的训练和推理效率进行了探索性的优化和验证。

此次发布的核心突破在于使用了一种有别于传统的注意力机制——稀疏注意力,在性能基本不变前提下,大幅提升了效率并降低了成本。

稀疏注意力有何特别之处?如何同时做到速度更快、成本更低?解放日报记者专访了上海交通大学人工智能学院赵沛霖教授。

【从“一一逐个看”变为“挑重点看”】

“尽管稀疏注意力这一技术方向并非DeepSeek首创,但真正在如此大规模的模型上实施,并使得计算量和成本都大幅度下降,DeepSeek是第一个做到的。”赵沛霖介绍,他本人就曾在2020年发表的一篇论文中使用这一技术来预测电力。

要理解稀疏注意力,不妨先来看一下传统的自注意力机制。2017年,谷歌在一篇具有开创意义的论文中提出了Transformer架构,其核心正是自注意力机制。

“当时谷歌引入自注意力机制,主要是为了优化翻译功能,因为仅仅关注文字本身和相邻的信息远远不够,有时候需要观察上下文才能准确翻译。”赵沛霖说。

目前绝大多数有影响力的大语言模型,都是以Transformer架构为核心。自注意力机制相当于在预测每个字时,需要计算当前预测的字与过去所有字的相关性。如此带来的计算复杂度和内存消耗之大,可想而知。

有意思的是,谷歌这篇论文本身就已经意识到了自注意力机制的计算缺陷。作者简要提到了可以使用局部注意力或稀疏注意力来降低计算复杂度。这表明,从Transformer诞生第一天起,研究如何让注意力“稀疏化”的思想就已经存在了。

与“面面俱到”的自注意力不同,稀疏注意力让AI模型处理信息时学会了“抓关键”,从“一一逐个看”变为“挑重点看”,计算复杂度自然大大下降。

尤其值得一提的是,DeepSeek是在参数量为6710亿如此大规模的模型上,验证了这一稀疏注意力机制。

在赵沛霖看来,这是DeepSeek的一种尝试,后续可能在稀疏注意力机制之外,会补充一些低成本的线性注意力。线性注意力也是一种速度很快的方法,为稀疏注意力可能遗漏关键信息起到“打补丁”作用。“现在很多公司都在研究线性注意力,但效果并不佳,未来‘稀疏+线性’可能会是一条比较优化的路径。”

【仅用1/4算力便可与前代模型能力基本持平】

从目前各领域的公开评测集来看,DeepSeek新版本的效果与之前基本持平,但长文本推理速度比前代版本快2-3倍,内存占用降低约30%-40%。

“我粗略估算了一下,它保持了上代模型90%以上的性能,但计算量减少了约75%,相当于仅用1/4算力便可与前代模型能力基本持平。”赵沛霖说。

随着新版本的发布,DeepSeek也公布了新的价格政策,百万tokens(文本的基本单位,可以理解为字或词)的输出价格仅为3元人民币,差不多是国外大模型均价的1/30到1/20,开发者调用API的成本相较过去将降低50%以上。无怪乎有网友惊叹,这是新时代的“水电气”。

速度更快、成本更低,除了直接给中小企业和个人开发者带来实惠,还将给产业带来什么影响呢?

赵沛霖认为,一方面这将对我国算力的缓解有所帮助。特别是随着大模型需求量的不断增加,如果能大规模节省算力,也就降低了对目前还是短板的GPU等芯片的需求。

另一方面,对于因成本限制而原本使用小模型的一些产业应用场景而言,如果大模型成本降低,可能直接使用大模型,这样在相应场景中的精度也会提高。

原标题:《DeepSeek新版本发布,速度更快,成本更低|科创观察员》

题图来源:上观题图

来源:作者:解放日报 黄海华

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李雨桐实名举报薛之谦涉嫌重婚罪,称其还杀了自己孩子

李雨桐实名举报薛之谦涉嫌重婚罪,称其还杀了自己孩子

映射生活的身影
2026-03-03 09:52:39
塞尔:皇马内部对西甲不抱有希望,球员感觉只有欧冠能争夺了

塞尔:皇马内部对西甲不抱有希望,球员感觉只有欧冠能争夺了

懂球帝
2026-03-03 17:32:08
人到中年,还在朋友圈晒这三样东西,情商很低,层次也很低

人到中年,还在朋友圈晒这三样东西,情商很低,层次也很低

唯晨说
2026-03-03 11:30:03
67岁上海退休老干部,骂33岁河南务工者“小赤佬”,被榔头打死

67岁上海退休老干部,骂33岁河南务工者“小赤佬”,被榔头打死

谈史论天地
2026-03-03 12:27:36
C罗或已离开沙特!价值6100万镑的私人飞机,已抵达马德里

C罗或已离开沙特!价值6100万镑的私人飞机,已抵达马德里

懂个球
2026-03-03 16:49:28
伊朗称击中了美空军基地大楼

伊朗称击中了美空军基地大楼

界面新闻
2026-03-03 12:13:18
终于来了!苹果发布全新 120Hz 高刷新品

终于来了!苹果发布全新 120Hz 高刷新品

XCiOS俱乐部
2026-03-03 22:49:12
美媒体警告伊朗:若退出世界杯将会损失7000万 4年后也休想再参加

美媒体警告伊朗:若退出世界杯将会损失7000万 4年后也休想再参加

风过乡
2026-03-03 13:21:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
且看北京普通中产家庭年收入,是这个数,出乎你的意料吗?

且看北京普通中产家庭年收入,是这个数,出乎你的意料吗?

慧翔百科
2026-03-03 11:20:57
现货黄金跌超4% 现货白银跌超12%

现货黄金跌超4% 现货白银跌超12%

证券时报
2026-03-03 19:51:16
特朗普称将很快宣布报复措施

特朗普称将很快宣布报复措施

每日经济新闻
2026-03-03 09:57:13
谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

娱乐团长
2026-03-03 13:00:37
四川再次发布橙色预警!这些地方高度危险

四川再次发布橙色预警!这些地方高度危险

四川省教育厅
2026-03-03 20:50:15
换帅血亏!阿隆索28场输5场,阿韦洛亚12场就输4场,球迷看懵了!

换帅血亏!阿隆索28场输5场,阿韦洛亚12场就输4场,球迷看懵了!

田先生篮球
2026-03-03 11:48:51
沙特航空确认往返安曼、科威特、迪拜、阿布扎比、多哈、巴林、莫斯科及白沙瓦的航班将继续取消,停飞期限已延长至3月4日

沙特航空确认往返安曼、科威特、迪拜、阿布扎比、多哈、巴林、莫斯科及白沙瓦的航班将继续取消,停飞期限已延长至3月4日

潇湘晨报
2026-03-03 16:54:23
历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

老马拉车莫少装
2026-03-02 23:27:10
夺冠+MVP!中国男篮18岁2米15新星崛起闪耀:曾单场轰30+8真猛

夺冠+MVP!中国男篮18岁2米15新星崛起闪耀:曾单场轰30+8真猛

李喜林篮球绝杀
2026-03-03 17:10:02
刚下飞机行李就没了!杭州姑娘花10多万去南极旅游却崩溃:衣物全靠借

刚下飞机行李就没了!杭州姑娘花10多万去南极旅游却崩溃:衣物全靠借

环球网资讯
2026-03-03 08:53:57
周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

达文西看世界
2026-03-02 11:48:37
2026-03-04 04:36:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
443884文章数 759746关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

亲子
家居
房产
数码
健康

亲子要闻

宝妈怀抱五个月大婴儿站在扶梯上,突然背后滑下一辆玩具车,被铲倒后孩子脱手飞出头部多处受伤!

家居要闻

万物互联 享科技福祉

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版