网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新!处理长文本更高性价比,国产技术协同加强

0
分享至

21世纪经济报道记者 陈归辞

9月29日,DeepSeek-V3.2-Exp模型正式发布。

V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种稀疏注意力机制,DSA),针对长文本的训练和推理效率进行了探索性的优化和验证。

DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一个核心组件,决定了模型如何在文本序列中聚焦关键信息,实现语义理解与生成。

简单对比来看,在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案,更高效,成本也更低。

得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。

除技术创新与价格“腰斩”外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关注。

实验版本

当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台HuggingFace的官方页面,但很快被删除。此后,DeepSeek正式公告新版本DeepSeek-V3.2-Exp的推出。

作为一款实验版本,DeepSeek认识到“新模型仍需在更广泛的用户真实场景中进行大规模测试,以排除在某些场景下效果欠佳的可能”。

为方便用户进行对比测试,DeepSeek为此前发布的V3.1-Terminus临时保留了额外的API访问接口,将开放至10月15日,调用价格与V3.2-Exp一致。

DeepSeek 现已将 DeepSeek-V3.2-Exp模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。

稀疏注意力机制

随着模型的发展,长文本处理需求日益增长。

根据业内分析,传统的Transformer全连接注意力机制,虽然在模型效果上表现出色,但其“稠密的”注意力机制使得计算复杂度随着文本长度增加,计算量呈指数级增长。这使得在处理长文本时,模型面临巨大的计算资源压力,训练时间被大幅拉长,推理速度也难以满足实时性需求。

针对长文本处理的主要计算瓶颈,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制。

DSA机制能够自适应地选择关键注意力头与局部上下文窗口。简单对比来看,在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案,更高效,成本也更低。

通过引入DSA机制,V3.2-Exp实现了长文本训练和推理效率的大幅提升。同时,在与前代模型V3.1-Terminus的严格对齐比较中,V3.2-Exp在各项核心能力上都保持了与V3.1-Terminus基本持平的水准。

得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调,开发者调用DeepSeek API的成本将降低50%以上。

国产算力无缝适配,TileLang引关注

DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息也第一时间宣布完成了与其适配,显示出当前国产AI软硬件生态的协同发展。

同时还值得注意的是,DeepSeek此次开源了新模型研究中设计和实现的GPU算子,包括 TileLang 和 CUDA 两种版本。DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。

DeepSeek对TileLang这一国产编程语言的采用与推荐引发业内高度关注。

TileLang是由北京大学计算机学院副研究员杨智团队主导开发的开源AI算子编程语言,专门为简化复杂的GPU算子开发而设计,在Tile粒度上进行编程和编译,实现模型算子和硬件的高效协同。开发者使用TileLang可以用更简洁的代码表达复杂计算,同时获得接近手写算子的高性能,从而显著提升AI算子的开发效率。

TileLang团队核心成员董宇骐此前曾介绍,TileLang实现了FlashAttention算子开发,代码量从超500行减少至80行,并保持了与官方版本持平的性能。

TileLang与国产硬件生态适配。“华为计算”在9月29日傍晚宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现。其称,昇腾已实现TileLang的Sparse Flash Attention和Lightning Indexer算子开发,后续将支持更完备的NPU算子并提升性能和泛化性。

这表明,国产模型、编程语言与算力正深度协同共进,合力推动国内AI行业自主发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拉什福德:我承诺改进,因为我对自己全场的表现并不完全满意

拉什福德:我承诺改进,因为我对自己全场的表现并不完全满意

懂球帝
2025-11-03 04:49:45
死者家属曝光石缝裸尸案可怕细节!凶手将人杀害后,还假扮热心人

死者家属曝光石缝裸尸案可怕细节!凶手将人杀害后,还假扮热心人

谈史论天地
2025-11-02 06:16:59
大二女生怀孕爸爸呼不可能,女孩:游泳怀上的!医生的解释很明白

大二女生怀孕爸爸呼不可能,女孩:游泳怀上的!医生的解释很明白

菁妈育儿
2025-10-26 12:35:13
7项第一+3项第二!火箭蜕变太快还补PG吗?阿门奥科吉均有大贡献

7项第一+3项第二!火箭蜕变太快还补PG吗?阿门奥科吉均有大贡献

颜小白的篮球梦
2025-11-03 06:19:12
上海37岁无业男砸金店,不抢金不反抗不伤人,背后隐情让人心酸

上海37岁无业男砸金店,不抢金不反抗不伤人,背后隐情让人心酸

水泥土的搞笑
2025-11-02 07:58:58
北大终身教授季羡林,一针见血:人老了,不在于运动,不在于喝水

北大终身教授季羡林,一针见血:人老了,不在于运动,不在于喝水

忠于法纪
2025-10-27 08:53:35
看到释永信的结局,才明白“寺内杀生”的素全法师含金量有多高

看到释永信的结局,才明白“寺内杀生”的素全法师含金量有多高

松林侃世界
2025-11-02 15:57:31
很多人,都低估了30年房贷的杀伤力

很多人,都低估了30年房贷的杀伤力

亚哥谈古论今
2025-10-14 18:45:05
郭汝槐回忆:吴石潜伏台湾10月牺牲,失在侥幸

郭汝槐回忆:吴石潜伏台湾10月牺牲,失在侥幸

优趣纪史记
2025-10-26 12:24:12
出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

报君知史
2025-10-20 11:19:06
曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

元哥说历史
2025-11-02 21:00:03
谷歌前CEO:我现在看到中国,就仿佛当年李鸿章看到美国那样震惊

谷歌前CEO:我现在看到中国,就仿佛当年李鸿章看到美国那样震惊

三农老历
2025-11-02 10:59:38
白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

阿纂看事
2025-08-29 15:46:57
俄军再向红军城增兵1.1万人,每天伤亡数百人,包围乌军是假消息

俄军再向红军城增兵1.1万人,每天伤亡数百人,包围乌军是假消息

环球热点快评
2025-11-03 08:41:44
字母哥谈最后一球被威少拉拽:我不想发表评论,我不想被罚款

字母哥谈最后一球被威少拉拽:我不想发表评论,我不想被罚款

雷速体育
2025-11-02 11:45:20
谁是陈志背后的保护伞?四层外壳揭秘之后,真相水落石出

谁是陈志背后的保护伞?四层外壳揭秘之后,真相水落石出

吃瓜局
2025-10-23 15:46:45
中方通知荷兰,可以恢复供货,但有一个前提条件,做不到就免谈

中方通知荷兰,可以恢复供货,但有一个前提条件,做不到就免谈

奇思妙想生活家
2025-11-02 12:28:22
直到红毯上郭宇欣秒了王小亿,才知打扮在气质面前不值一提

直到红毯上郭宇欣秒了王小亿,才知打扮在气质面前不值一提

仙味少女心
2025-11-02 14:37:13
存款大逃亡!2.4万亿从银行“搬家”,钱到底去哪了?

存款大逃亡!2.4万亿从银行“搬家”,钱到底去哪了?

搬砖营Z
2025-11-03 00:13:55
休赛期最赚签约?3年1亿,场均27+6+5,比唐斯硬,尼克斯不该放弃

休赛期最赚签约?3年1亿,场均27+6+5,比唐斯硬,尼克斯不该放弃

你的篮球频道
2025-11-02 10:37:02
2025-11-03 09:47:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
218248文章数 743247关注度
往期回顾 全部

科技要闻

马斯克为这事开骂:“他们什么都不懂”!

头条要闻

洪秀柱建议郑丽文:既然未来目标是统一 应有长期规划

头条要闻

洪秀柱建议郑丽文:既然未来目标是统一 应有长期规划

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

旅游
本地
艺术
手机
公开课

旅游要闻

上海迪士尼将建第四座主题酒店

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

艺术要闻

冷军书法震撼人心,个性与自由的完美结合!

手机要闻

古尔曼:Apple Intelligence 入华计划再延期,iOS 26.4 成新目标

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版