网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

0
分享至

新智元报道

编辑:编辑部

【新智元导读】685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。

昨晚,DeepSeek-V3悄然升级!

新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。


从发布时间和技术特点来看,DeepSeek-V3-0324,很可能是DeepSeek-R2的基础架构。

所以按照DeepSeek一贯的产品发布节奏(先推出基础模型,几周后再发布专门的推理增强版)来看,DeepSeek-R2很可能在几周后就将上线!

升级后的V3在代码、数学推理能力上,得到显著提升。尤其是代码领域,不少网友直呼「眼前一亮」。

相较于上一版,从一个球在超立方体弹跳的Python脚本,即可看出V3代码性能的改善。


甚至,它还能解锁Claude 3.7 Sonnet很多玩法,代码可以与之正面较量。

值得一提的是,DeepSeek V3另一大亮点在于采用MIT开源协议,上个版本还是自定义许可证。

这不仅可以自由修改、分发模型,还支持模型蒸馏、商业化应用。

模型文件总计641GB,主要以model-00035-of-000163.safetensors形式存在

685B虽大,但也能在消费级设备上跑起来。

这不,苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化,在512GB M3 Ultra实现了超过20 token/s的运行速度。



这种量化方式直接将模型的磁盘占用空间减少到352GB。


有M3 Ultra的童鞋们,可以按照下面的方式使用llm-mlx跑起来:

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bit
llm chat -m mlx-community/DeepSeek-V3-0324-4bit

若是本地跑不了的朋友,除了官网之外,还可以在OpenRouter上体验。

体验地址:openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

相比起某些会在发布前数月就开始大肆宣传造势的O和A开头的AI公司,DeepSeek这种低调办大事的风格可谓是天壤之别。

没有白皮书,没有博客文章,只有一个空白的README文件和模型权重本身——上线即可直接可以下载使用。

新版V3代码能力飙升,追平Claude 3.7

遗憾的是,DeepSeek尚未公布新版模型的系统卡,暂时无法窥探更多技术细节。

官方小助手的更新提示

不过,这并未阻挡全网对新模型的热情,已有机构、网友纷纷对V3展开通用能力、代码、数学等多维度的测评。

根据网友Xeophon的自测,DeepSeek-V3-0324所有指标性能暴涨,击败了Claude 3.5 Sonnet,成为目前最强的非推理模型。


就代码能力来看,DeepSeek-V3-0324同样能够与Claude 3.5 Sonnet一决高下。


另外,在Aider的多语言基准测试中,DeepSeek-V3-0324拿下55%成绩,较前代版本显著提升,成为仅次于Sonnet 3.7的非推理类模型第二名。

其表现已可媲美R1和o3-mini等具备推理能力的模型。


网友「karminski-牙医」还带来了全网最速的代码实测,新模型直接干翻了DeepSeek R1,与Claude 3.7相匹敌。


在 KCORES大模型竞技场中,Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者,DeepSeek-V3-0324以328.3分拿下第三名,仅次于Claude 3.5 Sonnet。


他还展开了四项评测,20个小球碰撞测试,上个版本结果挤成一团,DeepSeek-V3-0324在物理模拟上表现更好。



在mandelbrot-set-meet-libai测试中,DeepSeek-V3-0324没有过多变化,较初版仅仅低了2分,完成度提升很高。



还有火星任务测试中,DeepSeek-V3-0324星球渲染正确,所有模型中位列第三。



九大行星测试,DeepSeek-V3-0324真正绘制出了太阳系的完整图。



此外,DeepSeek-V3-0324在Misguided Attention基准上,跃居非推理类模型榜首,甚至超越了Claude Sonnet 3.7(非推理模型)。


令人惊讶的是,它现在能解决一些此前只有推理模型才能处理的提示,比如「4升水壶问题」。

V3-0324似乎学会了识别推理循环,并跳出循环——这种能力甚至是许多专业推理模型都不具备的。

颜色越深代表特定提示的正确响应次数越多

接下来,看看DeepSeek-V3-0324在多项实测中的具体表现如何。

网友实测,一个提示即出网页

网友「Deepanshu Sharma」表示,更新后的DeepSeek-V3-0324简直「强的过分了」。

他用这个新模型一气呵成创建了一个新网站,编写了800多行代码,一次都没有出错!

「看到这些厉害的开源模型不断给大公司施加压力,迫使他们以低成本构建更好的模型,真是太棒了!」Deepanshu写道。



网友「Risphere」体验完新的DeepSeek-V3-0324后表示,其在编码方面已经与Claude 3.7 Sonnet处于同一水平上了。

要知道,Claude模型一直以来都是公认的代码能力最强的模型。



不仅如此,Risphere甚至认为DeepSeek-V3-0324在前端开发方面超越了o1-pro和GPT-4.5!

要知道,o1-pro可是需要付费200美元每月的ChatGPT Pro会员才可以体验的模型。


Petri Kuittinen体验完DeepSeek-V3-0324后认为,「Anthropic和OpenAI遇上麻烦了!」。

他使用了一段非常简短的提示词就制作出了一个精美的响应式网页,提示词如下:

Create a great-looking responsive front page for AI company. Include everything in one HTML5 file.

为AI公司创建一个看起来很棒的响应式首页。将所有内容包含在一个HTML5文件中。

Petri认为,DeepSeek-V3-0324是在前端编程上也优于DeepSeek-R1。

他完成的这个网站共有958行代码,包括所有图像,而且也适合手机上观看。



左右滑动查看

不只是编程问题,数学竞赛也难不倒它。

数学博士、奥赛金牌得主Jasper用AIME 2025中的题目测试了一下DeepSeek-V3-0324,它顺利解决了。

Jasper表示,他现在对开源AI模型最终获胜更有信心了!


编码智能体Cline的速度很快,第一时间更新了DeepSeek-V3-0324。

他们还给出了使用的理由,DeepSeek-V3-0324在编码任务上性能与Claude 3.7 Sonnet不相上下,价格却低了53倍。


不止如此,Cline还表示,DeepSeek-V3-0324较之前的版本增加了60%的专家(从160增加到256),使用了FP8精度训练将计算效率翻倍,不仅使前端编码能力增强,数学与逻辑能力也有所提升。


DeepSeek注定改变全球AI格局

这次DeepSeek-V3的突然上线,节奏也与过去他们在圣诞节期间发布V3、几周后推出R1的模式完全吻合。

本来,业界就一直传闻R2将在4月亮相,V3的上线基本吹响了R2的前奏。

先进开源推理模型的影响,已经不必多说了。如果它们能免费提供,那原本只有财力雄厚的大型机构才能获得的高级AI系统,会变得人人可用。

而如果DeepSeek-R2能延续R1的发展路线,但它很可能会直接单挑OpenAI捂着的大炸弹GPT-5。这就让OpenAI靠封闭生态和雄厚资金支持带来的垄断,被彻底打破。

当OpenAI和Anthropic还在为模型设置付费访问限制时,DeepSeek已经实现了封闭模型无法达到的爆发式创新。

而中美AI差异,已经日渐缩小,全球AI格局已被重塑。几个月前,大部分分析师估计,中国在AI能力上落后美国1-2年,今天这一差距已经缩小至3-6个月,甚至呈现中国领先的趋势。

而开源的方式,甚至还解决了中国公司的特殊挑战(受限于英伟达先进芯片),因为更注重在算力有限的情况下达到有竞争力的性能,现在这已成为中国企业的潜在优势。

就像Android系统一样,凭着广泛的普及性和数千开发者的集体创新,DeepSeek很可能最终超越封闭系统。

谁将通过AI拥有对世界最大的影响力?让我们拭目以待。

参考资料: HNYZ

https://venturebeat.com/ai/deepseek-v3-now-runs-at-20-tokens-per-second-on-mac-studio-and-thats-a-nightmare-for-openai/

https://x.com/TheXeophon/status/1904225899957936314

https://x.com/cline/status/1904275590678786545

https://x.com/karminski3/status/1904212084306653648

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝布彭扎坠亡后,浙江3外援拒登场 多人痛哭质问管理层:怎么还踢

曝布彭扎坠亡后,浙江3外援拒登场 多人痛哭质问管理层:怎么还踢

我爱英超
2025-04-17 11:13:58
央视怒批!目不识丁、丢人现眼,难怪两会上冯远征建议演员多学习

央视怒批!目不识丁、丢人现眼,难怪两会上冯远征建议演员多学习

峰哥娱乐动漫
2025-03-10 08:22:49
男子花费88万,包酒店顶层为87岁老母庆生,事后母子双双跳楼

男子花费88万,包酒店顶层为87岁老母庆生,事后母子双双跳楼

罪案洞察者
2025-04-11 16:23:36
中国知道刀子往哪捅了?BBC指出,中国搬出毛泽东的朝鲜战争精神

中国知道刀子往哪捅了?BBC指出,中国搬出毛泽东的朝鲜战争精神

Hi秒懂科普
2025-04-17 11:45:11
全球最受关注79岁老人“狂吃”他汀,“低密度”1.3竟无副作用?

全球最受关注79岁老人“狂吃”他汀,“低密度”1.3竟无副作用?

小宇宙双色球
2025-04-17 12:20:39
收到美财长会晤邀约,中方深知谈判时机已到,立马换上王牌代表

收到美财长会晤邀约,中方深知谈判时机已到,立马换上王牌代表

科技虎虎
2025-04-18 11:01:38
马科斯下通牒,逼中方放弃南海,大批美军已下场助菲,事态严重了

马科斯下通牒,逼中方放弃南海,大批美军已下场助菲,事态严重了

吴欣纯Deborah
2025-04-13 15:00:04
别再等固态电池了,宁德时代:固态电池难落地,寿命短,容易破裂

别再等固态电池了,宁德时代:固态电池难落地,寿命短,容易破裂

全金猫眼
2025-04-16 17:32:15
物是人非,火勇现有阵容中经历过上次火勇大战的球员仅剩三人

物是人非,火勇现有阵容中经历过上次火勇大战的球员仅剩三人

懂球帝
2025-04-17 17:57:15
周总理接见鲁迅夫人许广平时,随口叫声婶婶,许广平:您喊我啥?

周总理接见鲁迅夫人许广平时,随口叫声婶婶,许广平:您喊我啥?

野史日记
2025-03-28 14:10:07
排除他杀,浙江外援布彭扎坠亡内幕曝光,外媒:生前要看心理医生

排除他杀,浙江外援布彭扎坠亡内幕曝光,外媒:生前要看心理医生

二哥聊球
2025-04-17 00:00:00
39岁女演员在家中去世,死因公布,出现这些症状千万要警惕!

39岁女演员在家中去世,死因公布,出现这些症状千万要警惕!

潇湘晨报
2025-04-17 15:07:10
原来闲鱼比你想象的还要全面,网友:这哪是闲鱼,这不我家吗

原来闲鱼比你想象的还要全面,网友:这哪是闲鱼,这不我家吗

娱乐督察中
2025-04-08 12:47:09
湖北女子取到15万假钞,银行却拒不承认,女子的做法让银行后悔

湖北女子取到15万假钞,银行却拒不承认,女子的做法让银行后悔

红豆讲堂
2025-04-14 10:04:36
56岁女儿深夜跪求90岁母亲别折磨我活不下去了

56岁女儿深夜跪求90岁母亲别折磨我活不下去了

妍薇情感驿站
2025-04-17 10:51:38
上证指数早盘下跌0.39%,创业板指下跌0.4%,船舶制造、通信设备涨幅靠前

上证指数早盘下跌0.39%,创业板指下跌0.4%,船舶制造、通信设备涨幅靠前

每日经济新闻
2025-04-18 11:32:19
为啥一定要救楼市?因为有8000多万吃财政饭的人,在张嘴等着

为啥一定要救楼市?因为有8000多万吃财政饭的人,在张嘴等着

平说财经
2025-04-12 07:47:27
石庆圣:浙江队赛前已知悉布彭扎去世,某球员庆祝进球是因过于激动

石庆圣:浙江队赛前已知悉布彭扎去世,某球员庆祝进球是因过于激动

雷速体育
2025-04-17 20:27:21
英媒:中国在与美国对峙中握有“底牌”

英媒:中国在与美国对峙中握有“底牌”

参考消息
2025-04-17 09:37:08
美国财长打退堂鼓了,至今没一国来签协议,中国的影响力深入全球

美国财长打退堂鼓了,至今没一国来签协议,中国的影响力深入全球

别人都叫我阿腈
2025-04-17 21:06:07
2025-04-18 12:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12545文章数 66012关注度
往期回顾 全部

科技要闻

库克这波操作让苹果暂时躲过一劫

头条要闻

"彩电第一股"内讧 公司高管被举报虚增业绩4000万

头条要闻

"彩电第一股"内讧 公司高管被举报虚增业绩4000万

体育要闻

上海荣誉市民,成为英超球队的保级英雄

娱乐要闻

张檬正式官宣产子 小五贴心全程陪产

财经要闻

小心 ,全球衰退不远了

汽车要闻

启源Q07高配值得选 空间够大/户外还能放电影

态度原创

时尚
健康
数码
房产
本地

假期,怎么拍照最出片?

唇疱疹和口腔溃疡是"同伙"吗?

数码要闻

CHERRY 樱桃 MX2A 极光轴上市:35 颗装 169 元

房产要闻

最后一波!15万起上车海口超级大盘,还是准现房!

本地新闻

云游湖北 | 七仙女都爱的山水,双峰米酒一口上头

无障碍浏览 进入关怀版