网易首页 > 网易号 > 正文 申请入驻

DeepSeek V3来了 老外评测结果:很不错

0
分享至

近期,DeepSeek-V3-0324正式发布,迅速在全球AI领域引发热议。相较于前作,V3版本虽未实现颠覆性创新,却在推理和编程两大关键领域取得进步,为用户带来新的惊喜。

DeepSeek向来秉持低调策略,在推出新版本时,既不发布白皮书进行详细阐述,也没有召开盛大发布会,仅将模型上传至Hugging Face平台。尽管如此,凭借卓越的性能,DeepSeek的每一次更新,都能成功吸引AI社区的高度关注。

这一次,V3-0324展现出更强大的复杂任务处理能力,在面对复杂问题时,能对任务有更深入理解,并提供更有效的解决方案。对于Web设计师而言,V3能够生成更为简洁高效的代码,显著提升Web页面和游戏界面的质量,极大提高工作效率。

和R1版本一样,效率依旧是V3-0324的一大突出优势。当前,许多AI模型的运行和训练依赖超级计算机,这类设备虽然拥有强大的运算能力,能够处理海量数据,但使用成本极高。与之相比,V3-0324在维持高性能的同时,有效控制了成本,这使得更多开发者和企业能够轻松使用该模型,进一步推动AI技术的普及与应用。

专家:开源模型最终会成为赢家

有趣的是,该版本在多个关键领域的进步,与谷歌Gemini 2.5 Pro极为相似,不仅在编程能力上大幅提升,推理水平更加出色,在token的使用效率上同样有了进步。

从参数规模来看,DeepSeek之前推出的R1拥有6710亿参数,而V3则达到6850亿,参数数量略高于前代。这一变化让业界普遍认为,V3将成为R2版本的重要基础。AIcpb.com创始人Li Bang zhu指出,V3在编程方面显著提升,为R2奠定了良好基础。R2原计划于5月初推出,一些专家认为,R2可能会提前和大家见面。

在推理能力上,DeepSeek-V3-0324展现出卓越的实力。在MMLU-Pro基准测试中,其准确率从75.9%提升至81.2%;在GPQA测试中,准确率从59.1%提升至68.4%;在AIME测试中,准确率从39.6%大幅跃升至59.4%;在LiveCodeBench测试中也从39.2%提升至49.2%。

加州大学博士、奥林匹克数学金牌得主Jasper Zhang用AIME 2025难题对DeepSeek-V3-0324进行严格测试,结果显示,V3各项表现出色。基于此,Jasper Zhang对开源模型充满信心,坚信其在未来的AI竞赛中能够获胜。目前,他创建的Hyperbolic公司已全面支持V3模型。

众多外媒在性能测试后普遍得出结论:V3-0324相较R1版本,性能有了飞跃。苹果设备研究人员Awni Hannun确认,在搭载M3 Ultra芯片的Mac设备上,V3的运行效率可达每秒20 tokens,他认为,以前人们都认为AI模型需要企业级基础设施,现在证明并非如此。这一数据不仅彰显了V3-0324的高效,更表明DeepSeek在面对OpenAI等行业巨头时没有落后,还证明了AI模型运行对企业级基础设施的依赖并非不可撼动。

一直以来,AI模型的运行高度依赖英伟达GPU,高昂的价格让许多开发者望而却步。与之形成鲜明对比的是,Mac Studio在进行推理时功耗不到200瓦,极大降低了使用成本。

开发者兼AI专家Simon Willison敏锐地指出,V3-0324支持本地部署,这一特性或将推动AI产业发生深刻变革。以往,AI模型多部署于中心化数据中心,而未来,部署方式将朝着去中心化、高效化方向发展,消费级设备在AI应用中将发挥更大作用。

普通开发者:很强,但编程还要优化

一位名叫Hamed的国外开发者发表评论称,让Gemini 2.5 pro和DeepSeek-V3-0324编写代码,制作国际象棋小程序,前者生成570行代码,后者生成2372行。

开发者vewin说:“V3-0324相当强大,它用R1约十分之一的token成本获得了相似的性能。”

Julian Goldie SEO则表示,在内容生成方面,V3-0324超越了谷歌Gemini 2.5。评测之后他得出几个结论:DeepSeek撰写的内容更有说服力,Gemini的推理能力十分出色,二者都能免费使用,但它们的API功能都有一些Bug。

开发者Hassan认为:“根据我的测试,V3更聪明了,这种聪明是全方位的,编程相当优秀,执行前端任务更是如此。”

开发者bilLkarkariy要求V3-0324和Gemini Pro 2.5为应用程序设计一个登录页面,对比之后他感到震惊,DeepSeek给出了完整、立刻就能用的解决方案。

当然,有人肯定也有人否定。

一位名叫Bindu Reddy的女性开发者提出反对意见,她认为:“V3非常快,是一个巨大的进步,但在真实编程中,V3仍然离Sonnet3.7有不小差距。”专门评测大模型的Markus Zimmermann认为:“用DevQualityEval 1.0测试,发现V3-0324的表现不如之前的DeepSeek V3。”

总体而言,开发者对V3-0324相当肯定,负面声音比较小。

开发者Petri Kuittinen让V3给AI企业制作漂亮的响应式前端网页,只需要一条提示语,就能将各种元素融合进去。他认为,DeepSeek V3-0324是DeepSeek最好的非推理模型,通常更适合创意性写作任务,比R1更适合制作HTML5+CSS+前端。在上面的任务中,它生成958行代码,里面包括图片、交互式网站。

Petri Kuittinen认为:“Anthropic和OpenAI已经陷入麻烦。V3-0324真的可以编程,可以制作漂亮的HTML5、CSS,前端部署相当容易,而且免费使用。”(小刀)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿根廷队3:2艰难险胜佛得角队,梅西赛后发声:这是一场“硬仗”,没人会轻易送你取胜

阿根廷队3:2艰难险胜佛得角队,梅西赛后发声:这是一场“硬仗”,没人会轻易送你取胜

环球网资讯
2026-07-04 11:56:16
湖人32分惨败!勇士11号秀6中6,蒂耶罗10中3,湖人24号秀19+2+1

湖人32分惨败!勇士11号秀6中6,蒂耶罗10中3,湖人24号秀19+2+1

鱼崖大话篮球
2026-07-04 12:26:09
大满贯女单四强出炉!陈幸同零封晋级,孙颖莎迎强敌压力陡增

大满贯女单四强出炉!陈幸同零封晋级,孙颖莎迎强敌压力陡增

天光破云来
2026-07-04 15:28:05
1.25亿建的高铁站,5年变废墟,全国至少26座高铁站成孤岛

1.25亿建的高铁站,5年变废墟,全国至少26座高铁站成孤岛

娱乐洞察点点
2026-06-29 18:46:34
浙江新能源车主称有修车焦虑:4S店换胎1600元,汽修店补胎仅100元,“省了钱但怕丢质保”

浙江新能源车主称有修车焦虑:4S店换胎1600元,汽修店补胎仅100元,“省了钱但怕丢质保”

新浪财经
2026-07-04 14:09:05
请国足以后不要说虽败犹荣!

请国足以后不要说虽败犹荣!

砚底沉香
2026-07-04 16:18:50
巨亏交易变合理交易!布朗交易舆论大反转,换来乔治竟是最佳报价

巨亏交易变合理交易!布朗交易舆论大反转,换来乔治竟是最佳报价

你的篮球频道
2026-07-04 08:30:21
中方亮出铁证,上千美军机已行动,美政府不再掩饰,公然遏制中国

中方亮出铁证,上千美军机已行动,美政府不再掩饰,公然遏制中国

独舞独舞
2026-06-29 23:45:14
单日票房逆袭第二!看完《特立独行》,我敢说:内娱票房要变天了

单日票房逆袭第二!看完《特立独行》,我敢说:内娱票房要变天了

星宿影视鸭
2026-07-04 11:55:20
“感觉已经闻到臭味了!”YSL新款男士水晶鞋遭吐槽,网友:脚臭可视化了

“感觉已经闻到臭味了!”YSL新款男士水晶鞋遭吐槽,网友:脚臭可视化了

大象新闻
2026-06-30 21:02:21
我婆婆和公公分床睡25年了,公公去世后2天后我才知道,我震惊不已,婆婆:搭伙过日子而已,奇怪吗?

我婆婆和公公分床睡25年了,公公去世后2天后我才知道,我震惊不已,婆婆:搭伙过日子而已,奇怪吗?

大爱三湘
2026-07-03 22:27:20
爱屋及乌 —— 射手座

爱屋及乌 —— 射手座

别人都叫我阿螫
2026-07-04 17:07:28
随着16强诞生,世界杯最新夺冠赔率出炉:阿根廷居第2

随着16强诞生,世界杯最新夺冠赔率出炉:阿根廷居第2

侧身凌空斩
2026-07-04 11:48:11
莫迪与高市早苗会谈称日本和印度,将在关键矿产方面加强合作,中方:不能打着合作的幌子,搞排他性“小圈子” 挑动对立对抗

莫迪与高市早苗会谈称日本和印度,将在关键矿产方面加强合作,中方:不能打着合作的幌子,搞排他性“小圈子” 挑动对立对抗

每日经济新闻
2026-07-04 17:32:07
月租150砍至59元,四次致电10086拉锯,移动老用户降费全过程实录

月租150砍至59元,四次致电10086拉锯,移动老用户降费全过程实录

普陀动物世界
2026-07-04 15:04:14
终止重大投资项目!千亿龙头,002709宣布

终止重大投资项目!千亿龙头,002709宣布

中国基金报
2026-07-04 15:15:42
月薪3万降到3千,我带头辞职,女老板给新人涨薪却冲出来求别走

月薪3万降到3千,我带头辞职,女老板给新人涨薪却冲出来求别走

晓艾故事汇
2026-06-30 09:28:13
“一群不懂感恩的人!”外婆参加外孙女清华毕业典礼,被骂惨!

“一群不懂感恩的人!”外婆参加外孙女清华毕业典礼,被骂惨!

林林先生
2026-07-03 16:07:15
动真格了!税务总局下达铁令:所有加油站,加完油必须就得开发票

动真格了!税务总局下达铁令:所有加油站,加完油必须就得开发票

离离言几许
2026-06-16 21:04:02
利马:如果不是女儿在我伤病期间降生,可能不会踏上球场了

利马:如果不是女儿在我伤病期间降生,可能不会踏上球场了

懂球帝
2026-07-04 15:29:07
2026-07-04 18:24:49
极客网 incentive-icons
极客网
科技使能新商业
3004文章数 2632关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

男子开餐吧被LV起诉索赔200万:当时很懵 正专心还债

头条要闻

男子开餐吧被LV起诉索赔200万:当时很懵 正专心还债

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
本地
亲子
艺术
游戏

家居要闻

传奇筑 日常诗

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

特朗普念儿童绘本,一开口就“跑偏”了

艺术要闻

16位当代画家,23幅风景与人物作品

官方确认:《黑旗RE》或增全新"问号" 探索系统大升级

无障碍浏览 进入关怀版