网易首页 > 网易号 > 正文 申请入驻

又强大又便宜!DeepSeek V3.2又让谷歌和OpenAI慌了

0
分享至

小雷发现,DeepSeek似乎真的很喜欢大晚上给大家突然来个惊喜。

12月1日晚,DeepSeek突然来了一波更新:V3.2版本正式上线并向所有用户开放,同时也在各个开源社区上传了V3.2的本地部署模型供所有用户使用。从官方公布的测试结果来看,DeepSeek V3.2的推理能力已经基本与OpenAI的GPT-5相近,但是其成本却远低于GPT-5,可以说仅这一点就足以让不少人为之兴奋了。

好了,废话不多说,让我们直接进入正题,看看DeepSeek这次给我们带来了哪些方面的提升。

推理更强还更便宜

DeepSeek V3.2共有两个版本,一个是在DeepSeek官方网站上给大家免费使用的DeepSeek V3.2版,另一个则是仅支持API服务访问的DeepSeek V3.2-Speciale,从官方的描述来看,Speciale版拥有更强的推理能力,其主要用于探索目前模型能力的推理能力上限。

V3.2-Speciale除了会主动进入“长思考加强”模式外,还结合了DeepSeek-Math-V2的定理证明能力,使其拥有更强的指令跟随、数学证明和逻辑验证能力。在官方测试中,V3.2-Speciale的推理基准测试成绩直接媲美最新的Gemini-3.0-Pro。



图源:DeepSeek

同时,DeepSeek还用V3.2-Speciale测试了IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)等四项赛事的决赛试题,均获得金牌的成绩。

特别是在ICPC和IOI的测试中,直接达到人类选手第二及第十名的水平,由此不难看出,DeepSeek V3.2在编程等领域的进步显然更大一些。而且在横向对比中,DeepSeek V3.2-Speciale的赛事成绩也全部超越了GPT-5 High,也是给OpenAI来了个措手不及。



图源:DeepSeek

在官方的技术文档里,他们提到DeepSeek V3.2的主要突破是引入了DeepSeek Sparse Attention (DSA) 稀疏注意力机制,并且通过双版本的设计来满足不同场景下的推理需求。

DSA机制的部署可以说从根本上解决了AI大模型在注意力方面的效率问题,具体来说,传统的注意力机制在运行时会计算序列中所有元素之间的关联,而DSA则是“有选择”地计算部分关键元素之间的关联,这使得所需要计算的数据显著降低。

事实上,类似的技术DeepSeek在年初的论文里就已经预告过,当时小雷还写了一篇文章,针对DeepSeek发布的全新注意力机制NSA进行解读。不过在后续的DeepSeek模型更新中,NSA机制一直没有公开露面,让小雷一度以为这个机制的部署遇到了什么困难。

不过,现在看来并非是遇到了困难,而是DeepSeek找到了更好的实现方式,年初论文里的NSA在处理长文本数据时,更像是把图书馆的书名做成一本索引,然后在遇到问题时通过索引快速锁定对应区域,然后再进行信息检索。



图源:LLM

而DSA则是类似于搜索引擎,在处理长文本时会首先进行快速的全文阅读,然后建立“闪电索引器”,后续需要检索数据时,再通过关键词来快速确定相关内容,与NSA固定区域的检索是不同的,DSA不仅更智能和精准,而且消耗的资源还更低。

在DSA机制的加持下,128K的序列推理成本可以降低60%以上,并且让推理速度提升约3.5倍速度,内存占用则减少70%,同时模型本身的性能没有明显下降,可以说从根本上改变了AI大模型在注意力领域的表现。

根据官方提供的数据,在H800集群上进行AI模型测试时,在序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段则是从2.4美元降到了0.8美元,让DeepSeek V3.2可能成为同级别AI大模型里长文本推理成本最低的模型。

不仅会思考,还会用“工具”

除了DSA机制外,DeepSeek V3.2还有个核心升级是允许AI大模型在思考模式下调用工具。官方表示其调用工具及使用工具的过程都无需训练,这使得DeepSeek V3.2拥有更强大的通用性能,并且作为开源模型可更好兼容使用者自制的工具。

为了验证DeepSeek V3.2的新特性,小雷设计了一些问题来看看他的回答效果,首先看看思考模式的表现:

问:A 比 B 大三岁,B 比 C 大两岁。五年后 A 的年龄刚好是 C 的两倍。问现在三个人多少岁?

答:



图源:雷科技

答案是正确的,不过关键在思考过程:





图源:雷科技

可以看到DeepSeek在计算出结果后,开始反复验证答案的正确,并且思考不同情况下该答案是否仍然正确或存在其他问题,在最后输出答案前,DeepSeek总共进行了三轮答案验证。

虽然看起来有点浪费算力,但是这种多次验证的思路却是必须的,可以更好的确保DSA机制下回答的正确率,否则就以DeepSeek的稀疏架构来说,出错的概率其实会比其他AI更高。

然后我又设计了一个多步骤的任务链处理:

搜索北京今天气温

把气温转换为华氏温度

调用工具检查你的换算是否正确

最后用一句话总结今天适合不适合户外活动

注:你必须自己决定什么时候调用工具,不能一次性完成。

我们来看看DeepSeek的思考过程:



图源:雷科技

可以看到其很好的理解了提问的需求,并且开始分步骤使用搜索和数学工具来解决问题,最终输出了回答:



图源:雷科技

回答整体上是正确按照步骤做了回答,并且最后还自动选择数学工具对转换结果进行确认,但是也有一个奇葩的地方,DeepSeek把思考过程中提到过的“总结今天适合不适合户外运动”的回答弄丢了,不过瑕不掩瑜,思考过程来看,DeepSeek确实具备自主决策使用哪些工具的能力。

作为对比,另一个AI在面对相同的问题时,虽然理解“调用工具”等要求,但是在执行到实际步骤时却变成直接搜索对应数据来填充回答:



图源:雷科技

事实上,在DeepSeek的思考模式工具调用教程里也有类似的问题,不过那个教程中展示的是如何通过多轮对话和调用多个工具来提高最终答案的质量。

你可以这么理解:DeepSeek以前只能在你提问时通过回忆(模型参数)来组合答案,现在则可通过拆解问题、逐个提问并针对问题使用不同工具(如搜索、数学、编程等)来给出更好的解决方案,最后再整合所有回答并重新排版成完整答案。

因为整体时间有限,所以小雷也就没有设计更难的问题去测试DeepSeek,有兴趣的朋友现在就可以登录DeepSeek官网亲自试试。

最强开源?OpenAI和Google又要头疼了

DeepSeek V3.2强吗?确实强,但是并没有断崖式领先,从测试结果来看与GPT-5 High及Gemini 3.0 Pro都是有来有回。但是,当一个能在多个权威基准里对标 GPT-5、Gemini 3.0 Pro、推理成本却低到只有行业主流模型三分之一甚至更低的模型以完全开源的方式放出来,足以对整个市场造成冲击——这也是DeepSeek一直能颠覆行业的根本逻辑。

此前,业界一直有个声音:“开源模型永远落后闭源模型8个月”,这个结论不好说对不对,但是DeepSeek V3.2的发布显然终结了这个争论。DeepSeek继续坚持全量开源,尤其是在引入DSA这种能显著降低成本、提升长文本能力的底层技术之后,其实就让开源模型的角色从“追赶者”变成了反向倒逼闭源巨头的“挑战者”。

更重要的是,DSA带来的成本革命会对AI大模型的商业化造成显著影响,因为AI大模型的训练和推理本质上都还存在成本高的问题,一句“成本下降60%”背后其实不只是关系到运营成本,还有前期部署成本,整体成本下降也意味着即使是小型企业都可以借助DeepSeek训练出更强的模型。

而在推理端,长文本交互的价格足够低后,高级AI应用(智能体、自动化工作流、长链推理等)也将不再局限于企业级市场,而是能够更好地被推广到消费级市场使用,甚至可能极大加速“AI工具取代传统软件”的趋势,使AI真正渗透到操作系统层级的日常使用中。

对于普通用户而言,或许只是觉得多了个免费的好用模型,但是从在几个月、半年后,或许你会发现各种硬件、软件的AI体验又有了质的提升,不用怀疑,这背后大概率有DeepSeek的功劳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

乾隆皇帝包裹遗体的被子,拍出了1.3亿天价,为何会如此值钱?

兴趣知识
2026-05-08 00:40:30
一位教授曾深入调查:中国农村当前最严重问题,不只农民收入太低

一位教授曾深入调查:中国农村当前最严重问题,不只农民收入太低

混沌录
2026-05-13 14:56:43
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
特朗普二儿媳跟着访华挑大梁了!刚到机场就美翻,一点不输伊万卡

特朗普二儿媳跟着访华挑大梁了!刚到机场就美翻,一点不输伊万卡

热心市民小黄
2026-05-14 10:03:15
香港诡异事件“鬼母煮饭”,女尸腐烂十日,幼女却说母亲每天煮饭

香港诡异事件“鬼母煮饭”,女尸腐烂十日,幼女却说母亲每天煮饭

堇色夜行
2025-01-06 22:54:42
武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

平老师666
2026-05-11 23:21:51
在体制内工作的好处

在体制内工作的好处

微微热评
2026-05-10 12:11:34
韩国总统李在明会见何立峰

韩国总统李在明会见何立峰

每日经济新闻
2026-05-13 17:19:38
中美两个大国说好了,霍尔木兹海峡不准收费,革命卫队能听懂吗?

中美两个大国说好了,霍尔木兹海峡不准收费,革命卫队能听懂吗?

临云史策
2026-05-14 11:24:13
上海地铁不挤了,人都走了?最新数据揭示人口结构大调整!

上海地铁不挤了,人都走了?最新数据揭示人口结构大调整!

观察眼看世界
2026-05-13 19:35:03
91岁杨尚昆晚年感慨:党内山头众多,唯有毛主席能彻底凝聚全党

91岁杨尚昆晚年感慨:党内山头众多,唯有毛主席能彻底凝聚全党

老谢谈史
2026-05-13 19:50:56
王励勤出手了!国乒3大新星获重用,世界第1组合落选,双打大变脸

王励勤出手了!国乒3大新星获重用,世界第1组合落选,双打大变脸

阿晞体育
2026-05-13 21:24:15
资本市场太疯狂:卖瓷砖的蒙娜丽莎蹭上英伟达 4天市值狂涨20亿 半导体却零营收

资本市场太疯狂:卖瓷砖的蒙娜丽莎蹭上英伟达 4天市值狂涨20亿 半导体却零营收

快科技
2026-05-14 09:36:28
汉语是牺牲了什么,才成为世界最紧凑、最高效的语言?

汉语是牺牲了什么,才成为世界最紧凑、最高效的语言?

瓜哥的动物日记
2026-05-13 00:58:37
数据疯涨全是假象!上海二手房连破纪录,真正赚钱的只有一类人

数据疯涨全是假象!上海二手房连破纪录,真正赚钱的只有一类人

阿离家居
2026-05-14 13:53:02
参宿四爆炸后,地球夜空会亮如白昼,至少半年不用开灯了

参宿四爆炸后,地球夜空会亮如白昼,至少半年不用开灯了

观察宇宙
2026-05-13 20:18:32
关紧门窗!8—9级雷暴大风,抵达湖北

关紧门窗!8—9级雷暴大风,抵达湖北

蔡甸在线
2026-05-14 12:09:34
一个三当家!生涯9年,0次全明星,为什么都说他值2.1亿顶薪

一个三当家!生涯9年,0次全明星,为什么都说他值2.1亿顶薪

球毛鬼胎
2026-05-14 12:58:21
包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

磊子讲史
2025-07-02 13:45:23
欧盟承认稀土无筹码,中方谈判自信前所未有

欧盟承认稀土无筹码,中方谈判自信前所未有

魏家东
2026-05-13 13:01:10
2026-05-14 15:59:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36791文章数 812100关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

云辇-P Ultra降维打击!三轮也能越野?方程豹豹8/豹5闪充版30.58万起

态度原创

艺术
家居
亲子
房产
军事航空

艺术要闻

充满光感的花卉油画 | 亚历山大·沙巴德伊

家居要闻

精神奢享 对话塔尖需求

亲子要闻

恭喜刘伊心三胎顺产,63岁老公陪产全过程,比产妇还要紧张

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版