网易首页 > 网易科技 > IT业界 > 正文

新版DeepSeek V3悄然发布 外媒:很强但少了"人味"

0
分享至


3月25日消息,中国人工智能初创公司DeepSeek悄然发布了一款新的大语言模型,在人工智能行业引发震动。这不仅因为其强大的能力,还因为其独特的发布方式。

这个大小为641GB的模型名为DeepSeek-V3-0324,于周一悄然出现在人工智能资源库Hugging Face上,几乎没有任何官方公告,延续了该公司低调却影响深远的发布风格。

此次发布尤其值得关注的是,该模型采用MIT许可(允许免费商用),并且有报道称它可以直接在消费者级“硬件”上运行,尤其是配备M3 Ultra芯片的苹果Mac Studio。

人工智能研究员Awni Hannun在社交媒体上写道:“4比特量化的新版DeepSeek-V3-0324,在512GB M3 Ultra的机器上通过mlx-lm实现了每秒20个token的处理速度!”虽然售价为9499美元的Mac Studio可能超出了“消费者硬件”的定义,但能够在这样的硬件上本地运行如此庞大的模型,标志着与通常与最先进人工智能技术相关的数据中心需求有了根本性突破。

DeepSeek隐秘发布策略打破AI市场预期

这个拥有6850亿参数的模型发布时没有附带技术白皮书、博客文章或营销推广,只有一个空白的README文件和模型权重。这种做法与西方人工智能公司通常精心策划的产品发布形成鲜明对比,后者往往在发布前数月便开始进行炒作。

早期测试者报告称,相比于前一版本,DeepSeek-V3-0324在各项指标上有了显著提升。人工智能研究员Xeophon在社交媒体上发帖高调宣称:“我在内部基准测试平台上测试了新版DeepSeek V3,在所有测试中,它在各项指标上都有巨大的跃升。它现在是最好的非推理模型,把Sonnet 3.5拉下王座。”

如果这一说法得到更广泛的验证,DeepSeek的新模型将在性能排行榜上压制Anthropic的Claude Sonnet 3.5,后者是业内公认顶尖的商业人工智能系统之一。而且与需要订阅的Sonnet不同,DeepSeek-V3-0324的权重文件供任何人免费下载使用。

DeepSeek V3-0324的突破性架构如何实现无与伦比的效率

DeepSeek-V3-0324采用了混合专家(MoE)架构,从根本上重新构想了大语言模型的运作方式。传统模型会在每项任务中激活全部参数,而DeepSeek的方法是在特定任务中只激活约370亿个参数,尽管它拥有6850亿个参数。

这种选择性激活代表了模型效率的范式转变。通过仅激活与每个特定任务最相关的“专家”参数,DeepSeek能够在大幅减少计算需求的同时,提供与更大、完全激活的模型相当的性能。

该模型还融入了两项突破性技术:多头潜在注意力(MLA)和多token预测(MTP)。MLA增强了模型在处理长文本时保持上下文的能力,而MTP则可以每个步骤生成多个token,而非传统的逐标记生成方式。两者结合使得输出速度提高了近80%。

开发工具创造者西蒙·威利森(Simon Willison)在博客中指出,4比特量化版本的DeepSeek-V3将存储占用减少到352GB,这使得在像Mac Studio(配备M3 Ultra芯片)这样的高端消费者硬件上运行成为可能。

这代表了人工智能技术部署方式的潜在重大转变。传统人工智能基础设施通常依赖于多块英伟达GPU,消耗数千瓦的电力,而Mac Studio在推理过程中仅消耗不到200瓦的电力。这一效率差距表明,人工智能行业可能需要重新审视关于顶尖模型性能所需基础设施的假设。

中国的开源AI革命挑战硅谷的“封闭花园”模式

DeepSeek的发布策略体现了中西方公司在人工智能商业理念上的根本分歧。像OpenAI和Anthropic这样的美国领军公司将他们的模型封闭在付费墙后,而中国人工智能公司则越来越多地采纳宽松的开源许可。

这种做法正在迅速改变中国的人工智能生态系统。尖端模型的开源产生了乘数效应,使得初创公司、研究人员和开发人员能够在没有巨额资本支出的情况下,基于复杂的人工智能技术进行构建。这加速了中国人工智能能力的提升,令西方观察者感到震惊。

这一策略背后的商业逻辑反映了中国市场的现实。在众多资金雄厚的竞争对手存在的情况下,当竞争者免费提供类似能力时,保持专有模型变得越来越困难。开源通过生态系统领导地位、API服务和基于免费可用基础模型构建的企业解决方案创造了替代的价值路径。

即便是中国的科技巨头也认识到这一转变。百度宣布计划在6月前将其文心一言4.5系列模型开源,而阿里巴巴和腾讯也发布了具有专业能力的开源人工智能模型。这一举措与西方公司依赖API的策略形成了鲜明对比。

开源策略还解决了中国人工智能公司面临的独特挑战。在获取尖端英伟达芯片受限的情况下,中国公司更加强调效率和优化,以在有限的计算资源下实现竞争性性能。这种由需求驱动的创新现在已成为潜在的竞争优势。

DeepSeek V3-0324:AI推理革新的基础

DeepSeek-V3-0324的发布时机和特点强烈表明,DeepSeek预计将在未来两个月内发布的改进型推理专用模型DeepSeek-R2。这符合DeepSeek的惯常模式,即基础模型发布数周后推出专用推理模型。

Reddit用户mxforest指出:“这与他们在圣诞节前后发布V3,几周后推出R1的模式一致。传闻R2将在4月发布,所以这可能就是它。”

推理模型的开源再怎么强调都不为过。目前,像OpenAI的o1和DeepSeek的R1这样的推理模型代表了人工智能能力的最前沿,在数学、编程等领域展现了前所未有的问题解决能力。将这项技术免费开放,会使目前只有拥有雄厚资金支持的公司才能使用的人工智能系统普及化。

潜在的R2模型发布之际,关于推理模型计算需求的重要发现正在浮现。英伟达首席执行官黄仁勋最近指出,DeepSeek的R1模型“消耗的计算量是非推理人工智能系统的100倍”,这与之前业内对效率的假设相矛盾。这揭示了DeepSeek模型背后取得的非凡成就,它们在资源限制更大的情况下依然能够提供竞争力的表现。

如果DeepSeek-R2继续沿着R1设定的轨迹发展,它可能会直接挑战GPT-5,即OpenAI的下一代旗舰模型,后者预计将在不久后发布。OpenAI封闭、资金密集型的方法与DeepSeek开放、资源高效的战略之间,代表了人工智能领域两种相互竞争的未来愿景。

如何体验DeepSeek V3-0324:开发者和用户的完整指南

对于那些急于体验DeepSeek-V3-0324的人,根据技术需求和资源的不同,可以选择多种途径。完整的模型权重已在Hugging Face上发布,641GB的大小需要充足的存储空间和计算资源。

对于大多数用户而言,基于云的选项提供了最易接入的入口。OpenRouter提供免费API访问该模型,并且配有用户友好的聊天界面。只需选择DeepSeek V3 0324作为模型即可开始体验。

DeepSeek自己的聊天界面chat.deepseek.com也很可能已经更新为新版本,尽管公司尚未明确确认。早期用户反馈称,新的版本在该平台上可用,且性能较此前版本有所提升。

希望将模型集成到应用程序中的开发者,也可以通过各种推理提供商访问它。Hyperbolic Labs宣布成为“在Hugging Face平台上首家提供该模型服务的推理提供商”提供该模型,而OpenRouter则提供与OpenAI SDK兼容的API访问。

DeepSeek的新模型更注重技术精确性而非对话亲和力

早期用户报告称,DeepSeek模型的交流风格发生了明显变化。尽管之前的模型因其对话式、拟人化的语气备受好评,但DeepSeek V3-0324呈现出更加正式、技术导向的风格。

Reddit用户nother_level问道:“是只有我觉得这个版本不那么像人类了吗?对我来说,DeepSeek V3与其他模型不同的地方在于它更像人类。它的语气、措辞都不像其他大语言模型那样机械感,但现在这个版本感觉像其他大语言模型一样机械得要命。”

另一位用户AppearanceHeavy6724补充道:“没错,它肯定失去了那种超然的魅力,感觉聪明反被聪明误。”

这种明显的风格变化似乎是DeepSeek工程师的有意设计。转向更精准、分析式的交流风格,表明该公司正将模型重新定位至专业和技术应用,而非休闲对话的战略。这与人工智能行业的广泛趋势一致,开发者越来越认识到,不同的使用场景需要不同的互动风格。

对开发专业应用的开发者而言,这种更精准的交流风格反而成为优势,能为工作流程提供更清晰一致的输出;但会削弱模型在需亲和力的消费端应用中的吸引力。

DeepSeek的开源战略如何重塑全球AI版图

DeepSeek的人工智能技术开发和分发方法不仅是一项技术成就,也体现了关于先进技术应如何在社会中传播的根本不同愿景。通过提供开放许可的尖端人工智能模型,DeepSeek推动了一个传统闭源模型无法比拟的指数级创新。这一战略正在快速缩小中国和美国在人工智能领域的差距。几个月前,大多数分析师都认为中国落后美国一到两年,而如今这一差距已缩小至3至6个月,部分领域接近持平甚至中国领先。

这种开源部署理念与安卓对移动生态系统的影响颇为相似。通过免费提供安卓系统,谷歌创建了一个平台,最终实现了全球市场的主导地位。同样,开源人工智能模型也有可能凭借广泛普及和开发者集体创新,在竞争中超越闭源系统。

这一影响超越了市场竞争,直指技术获取的根本问题。西方AI巨头因将先进能力集中在资源充足的公司与个人手中而备受批评,而DeepSeek的开放战略让能力广泛分布,可能加速全球AI应用。

随着DeepSeek-V3-0324进入全球研究实验室和开发者工作站,竞争已不再仅仅是关于构建最强大的人工智能,而是关于让更多人能够利用人工智能进行创造。在这场竞赛中,DeepSeek的低调发布已充分预示了人工智能的未来。最自由分享技术的公司,或将最终主导AI重塑世界的进程。 (小小)

延伸阅读
相关推荐
热点推荐
刚刚,哈佛长新冠研究突破!发现背后黑手

刚刚,哈佛长新冠研究突破!发现背后黑手

徐德文科学频道
2025-12-18 21:44:08
坠机!55岁美国冠军车手不幸遇难,7人死亡:包括妻子+2个孩子

坠机!55岁美国冠军车手不幸遇难,7人死亡:包括妻子+2个孩子

念洲
2025-12-19 09:19:44
不干涉他国内政

不干涉他国内政

周边问题研究所
2025-12-18 21:22:36
太平天国最大贡献:一场14年的“外科手术”,掏空清廷统治根基

太平天国最大贡献:一场14年的“外科手术”,掏空清廷统治根基

远方风林
2025-12-18 23:49:15
反转反转再反转!狄龙自杀式防守送勇士两罚1掷 太阳最后罚球绝杀

反转反转再反转!狄龙自杀式防守送勇士两罚1掷 太阳最后罚球绝杀

Emily说个球
2025-12-19 12:45:42
日本迫使苹果调整iOS规则大幅降低苹果税,中国继续人傻钱多?

日本迫使苹果调整iOS规则大幅降低苹果税,中国继续人傻钱多?

风向观察
2025-12-18 16:40:37
“南京博物院藏仇英名作现身拍卖市场”追踪

“南京博物院藏仇英名作现身拍卖市场”追踪

新华社
2025-12-19 00:20:41
88比11!CBA最悬殊的比分诞生了:篮协看到这一幕后该懵了?

88比11!CBA最悬殊的比分诞生了:篮协看到这一幕后该懵了?

篮球快餐车
2025-12-19 01:21:14
《江南春》不在场:8800万元,不是最可怕的数字

《江南春》不在场:8800万元,不是最可怕的数字

呦呦鹿鸣
2025-12-18 16:15:41
掘金逆转魔术:约基奇三双助攻超张伯伦中锋历史第一 班凯罗三双

掘金逆转魔术:约基奇三双助攻超张伯伦中锋历史第一 班凯罗三双

醉卧浮生
2025-12-19 12:59:04
张雨绮换脸成功!说不出来哪里变了,好像又都变了

张雨绮换脸成功!说不出来哪里变了,好像又都变了

爆角追踪
2025-12-18 16:05:56
乐山一小区网捕流浪猫致幼猫死亡引争议 记者走访:多只流浪猫被紧急收养,公安已介入调查

乐山一小区网捕流浪猫致幼猫死亡引争议 记者走访:多只流浪猫被紧急收养,公安已介入调查

封面新闻
2025-12-19 12:05:46
停播7年,那个挽救无数司机的“网红交警”谭乔,却挽救不了自己

停播7年,那个挽救无数司机的“网红交警”谭乔,却挽救不了自己

以茶带书
2025-12-18 17:14:01
单扛强突+MVP!22岁中锋带队进决赛:离开曼联半年12球3助

单扛强突+MVP!22岁中锋带队进决赛:离开曼联半年12球3助

叶青足球世界
2025-12-19 08:29:19
梅艳芳母亲100岁大寿留影,四个孩子离世仨,如今过的比谁都潇洒

梅艳芳母亲100岁大寿留影,四个孩子离世仨,如今过的比谁都潇洒

万物知识圈
2025-12-18 09:12:45
南京不少市民反映导航失灵?高德回应:信号干扰源导致定位异常

南京不少市民反映导航失灵?高德回应:信号干扰源导致定位异常

极目新闻
2025-12-18 15:26:27
54岁陈松伶减重27斤,皮松脸黑括号纹很深,和老公站一起像两代人

54岁陈松伶减重27斤,皮松脸黑括号纹很深,和老公站一起像两代人

娱圈小愚
2025-12-19 10:03:35
南京博物院盗卖文物,捐赠后人追查十年遭打码“证据”糊弄,失踪五件国宝还有多少黑幕

南京博物院盗卖文物,捐赠后人追查十年遭打码“证据”糊弄,失踪五件国宝还有多少黑幕

爆角追踪
2025-12-18 15:36:33
小学生吃早餐视频火了,116万网友点赞:这就是有父母兜底的幸福

小学生吃早餐视频火了,116万网友点赞:这就是有父母兜底的幸福

妍妍教育日记
2025-12-18 20:23:32
迷人的大腿:生命的等高线

迷人的大腿:生命的等高线

疾跑的小蜗牛
2025-12-19 07:25:05
2025-12-19 13:39:00

科技要闻

2025新一代人工智能创业大赛总决赛收官

头条要闻

团播女生私下卖力维护"大哥":经常擦边 有女生会被约走

头条要闻

团播女生私下卖力维护"大哥":经常擦边 有女生会被约走

体育要闻

没有塔图姆,还有塔秃姆

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

非法集资911亿!"金融大鳄"终审被判无期

汽车要闻

最便宜GLS 2026款奔驰GLS经典版售96.8万

态度原创

数码
亲子
家居
房产
艺术

数码要闻

固件更新无效?AirPods Pro 3静电噪音问题未彻底解决

亲子要闻

很多家长问支具铝板是什么,名字叫指铝板,网上都能搜到

家居要闻

高端私宅 理想隐居圣地

房产要闻

万科·三亚嘉澜地,万科高端旅居系1号作品全球发布

艺术要闻

诸乐三的写意花鸟

无障碍浏览 进入关怀版
×