网易首页 > 网易号 > 正文 申请入驻

DeepSeek低调宣称小更新,结果用2折价格达到R1水平

0
分享至

DeepSeek 发布了其 V3-0324 模型,虽然官方将其描述为“小版本迭代”,但实际表现却远超预期。本文将深入探讨 DeepSeek-V3-0324 的技术细节、性能表现以及其对商业模型的潜在影响,分析开源模型如何通过低成本和高性能推动行业变革。

———— / BEGIN / ————

前天晚上,DeepSeek 无预警发布 DeepSeek-V3-0324 模型,此次更新虽被官方低调地称为 “ 小版本迭代 ”,但实测表现远超预期。

该模型尤其在代码生成、前端开发等方面显著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引发全球 AI 社区热议。

在大模型竞技场测试 KCORES 中,DeepSeek-V3-0324 代码能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近 Claude 3.7 Sonnet 的思维链版本( 334.8分 )。

在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多语言基准测试中得分为 55%,比 V3 有显著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,仅次于 Claude Sonnet 3.7 。

测试数据还表明,在表现良好的模型中,DeepSeek-V3-0324 花费是最低的,比 R1 还低很多,只需大约 1/5,拥有高到令人发指的性价比。

另外,Claude Sonnet 3.7 Thinking 的花费是 DeepSeek-V3-0324 的 33 倍, o1 是 DeepSeek-V3-0324 的 167 倍。

目前在 DeepSeek 官网,只需要关闭 “ 深度思考 ” 选项即可使用新模型。

Hugging Face 上也提供了开源下载,下载地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324 包含 685B 参数,较前代 V3 小幅增加,采用 MoE( 专家混合 )架构,激活参数 370 亿。网友实测 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度运行,磁盘占用仅352GB。新模型采用与 DeepSeek-R1 相同的MIT许可,允许自由修改、商用及模型蒸馏,比上一版 V3 更开放。

从测评结果来看,DeepSeek-V3-0324 前端开发表现突出,媲美顶级商业模型。

X 博主 Deepanshu Sharma 仅用简单提示词( “ 用 HTML/CSS/JS 制作现代化登录页面 ” ),就能让新版 V3 一键生成 800+ 行代码,且无错误运行,效果媲美 Claude 3.7 Sonnet 。

在经典弹跳小球测试中,DeepSeek V3-0324 不仅比 R1 表现更好,博主 Deepanshu Sharma 还认为它生成了最流畅的动作。

在测试中 o3-mini 最初表现看起来不错,但并没有正确遵循物理原理,尤其是在视频中间,球对重力没有做出正确的反应。

Deepanshu Sharma 评价 DeepSeek V3-0324 “ 表现得像唯一排名第一的非推理模型 ”。

据 X 网友 karminski-牙医介绍,在升级版的 20 小球物理模拟测试中,DeepSeek V3-0324 相比 V3 也表现更优。

而新版 V3 与头部推理模型的比较情况如下:

在火星任务测试中,DeepSeek-V3-0324 提升巨大,星球、图例渲染正确,发射和返回的窗口计算也有很大进步。

结合 UI 设计和物理模拟,X 网友 Parul Pandey 还用 DeepSeek-V3-0324 生成了一个可交互物理模拟界面,通过 AnyChat 使用 DeepSeek-V3-0324 模拟水分子。

实际运行中,可以通过温度滑块提升温度,让分子呈现越来越快的前进和碰撞反弹运动。

提示词:创建一个交互式模拟,显示水分子形成和断裂氢键的过程,同时显示温度滑块。

对于本次升级的技术难度,有 Reddit 网友 pigeon57434 给出了比较中立的解读:不用太惊叹本次 V3 升级的幅度,因为 RL ( 强化学习,Reinforcement Learning )潜力极大。以 QwQ-32B 为例,尽管它实际上小了 20 倍,但它在某些方面的表现几乎与 R1 一样好,甚至比 R1 更好。它能那么强,只是因为扩展推理模型还有很大空间,甚至不需要新的基础模型。我敢打赌,使用更复杂的技术,可以轻松获得基于 DeepSeek-V2.5 的推理模型来击败 R1,更不用说这个新版本的 V3 了。

总的来说,这样的免费+高性能的组合将对 OpenAI、Anthropic 等闭源商业模型形成越来越大的压力。

DeepSeek 此次更新再次证明开源模型的爆发力,不仅技术指标逼近顶级商业AI,更以低成本、高自由度推动行业变革。

可以合理推测,此次更新有可能是R2的前置版本,类似去年 V3 ( 24.12.16 )→R1 ( 25.01.20 ) 的发布节奏,或许几周内我们可能迎来更强的推理模型 R2。

随着 R2 的临近,全球 AI 竞争格局或将迎来新一轮洗牌。

参考资料:

https://github.com/KCORES/kcores-llm-arena

https://x.com/paulgauthier/status/1904304052500148423

https://x.com/deepanshusharmx/status/1904224760399282587

https://x.com/deepanshusharmx/status/1904363892899492141

https://x.com/karminski3/status/1904212084306653648

https://x.com/pandeyparul/status/1904352867433242926

https://www.reddit.com/r/LocalLLaMA/comments/1jip611/deepseek_releases_new_v3_checkpoint_v30324/

https://aider.chat/docs/leaderboards/

https://x.com/awnihannun/status/1904177084609827054

本文来自微信公众号:知危,作者:流大古 编辑:大饼

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12秒75!男子110米栏新世界纪录诞生,尘封14年神迹被打破!

12秒75!男子110米栏新世界纪录诞生,尘封14年神迹被打破!

马拉松跑步健身
2026-06-11 22:18:50
颠覆认知!日本超市荔枝单颗售卖,一颗41元,网友:在中国太幸福

颠覆认知!日本超市荔枝单颗售卖,一颗41元,网友:在中国太幸福

魔都姐姐杂谈
2026-06-11 13:32:59
新加坡公开站队!把南海废纸当圣旨,钓鱼岛改叫尖阁,中新翻脸?

新加坡公开站队!把南海废纸当圣旨,钓鱼岛改叫尖阁,中新翻脸?

一曲一场談
2026-06-12 14:18:46
苏联最强的时候有多猛?1939年,硬是把三个已经独立的国家吞并

苏联最强的时候有多猛?1939年,硬是把三个已经独立的国家吞并

北海史记
2026-06-10 04:44:15
男子打工忘了老家还养了600只毒蝎,5年后拆迁,他回家推开门瞬间愣住了……

男子打工忘了老家还养了600只毒蝎,5年后拆迁,他回家推开门瞬间愣住了……

品读时刻
2026-06-11 09:04:59
张嘉译首聊患强直性脊柱炎的原因,22岁开始发病,退休后想回西安

张嘉译首聊患强直性脊柱炎的原因,22岁开始发病,退休后想回西安

知法而形
2026-06-12 14:56:02
上海584万退休老人养老金将迎调整,过去3年变化有多大?一文看明白

上海584万退休老人养老金将迎调整,过去3年变化有多大?一文看明白

暖心人社
2026-06-12 17:50:22
某驻外机构,仅5个月就给10万印度人发签证,遭网暴!评论区太狠

某驻外机构,仅5个月就给10万印度人发签证,遭网暴!评论区太狠

消失的电波
2026-06-10 22:20:46
婆婆退休摆十桌唯独漏我,我关机旅游七天,老公哭诉:妈出大事了

婆婆退休摆十桌唯独漏我,我关机旅游七天,老公哭诉:妈出大事了

千秋文化
2026-05-31 22:19:38
股市涨到熔断,还在世界杯赢球:今天真羡慕韩国人

股市涨到熔断,还在世界杯赢球:今天真羡慕韩国人

黑噪音
2026-06-12 19:07:05
首次拿顶薪!CBA这6人等续约,张镇麟双丰收,27岁国手辅佐胡金秋

首次拿顶薪!CBA这6人等续约,张镇麟双丰收,27岁国手辅佐胡金秋

体坛大事记
2026-06-12 09:12:46
为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

基斯默默
2026-05-28 11:06:03
突发,午后高位跳水!

突发,午后高位跳水!

格隆汇
2026-06-12 16:52:02
蒙古国的“阳谋”:全面恢复蒙文和内蒙接轨!对中国意味着什么?

蒙古国的“阳谋”:全面恢复蒙文和内蒙接轨!对中国意味着什么?

小豫讲故事
2026-05-27 06:00:08
为什么福布斯富豪榜上看不到洛克菲勒、罗斯柴尔德这些老牌家族?

为什么福布斯富豪榜上看不到洛克菲勒、罗斯柴尔德这些老牌家族?

荆楚寰宇文枢
2026-06-09 23:16:34
18万开全新路虎,我劝你别买

18万开全新路虎,我劝你别买

围观商业
2026-06-12 11:24:37
缅甸仰光跳楼男子身份确认,遗书内容令人不寒而栗:“我杀了她,尸体在公寓里”

缅甸仰光跳楼男子身份确认,遗书内容令人不寒而栗:“我杀了她,尸体在公寓里”

缅甸中文网
2026-06-11 17:41:25
穆斯林人口占99%的土耳其,性交易为何合法了140年?

穆斯林人口占99%的土耳其,性交易为何合法了140年?

掠影后有感
2026-05-16 10:23:37
一份新估算:AMD称下代服务器处理器,单机架性能是Nvidia Vera的3.3倍

一份新估算:AMD称下代服务器处理器,单机架性能是Nvidia Vera的3.3倍

我是一个养虾人
2026-06-11 12:26:25
广东今年最长暴雨,局地800毫米!这些地方需严防地质灾害

广东今年最长暴雨,局地800毫米!这些地方需严防地质灾害

南方都市报
2026-06-12 17:00:32
2026-06-12 21:32:49
运营派
运营派
互联网运营学习交流平台
2019文章数 28关注度
往期回顾 全部

科技要闻

鸿蒙7发布,余承东:首个完成AI化改造系统

头条要闻

国内最大黄金盗窃案告破:价值2700万 两主犯身份披露

头条要闻

国内最大黄金盗窃案告破:价值2700万 两主犯身份披露

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

BJ30旅行家高光版正式上市 超级置换价8.29万起

态度原创

家居
游戏
本地
时尚
公开课

家居要闻

空间微调 移形换境

《最终幻想7启示》跨平台画面有差距:但体验没区别

本地新闻

AK刘彰邂逅河北南大港湿地

推广|| 40+无痛美回巅峰期,这个东西帮大忙

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版