网易首页 > 网易号 > 正文 申请入驻

DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

0
分享至

新智元报道

编辑:桃子 定慧

【新智元导读】DeepSeek V3.1新版正式上线,上下文128k,编程实力碾压Claude 4 Opus,成本低至1美元。

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。

本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。

综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:

  • 编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。

  • 性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。

  • 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。

  • 架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。

  • 成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。

值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

对于这波更新,大家的热情可谓是相当高涨。

即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

DeepSeek粉丝数已破8万

看到这里,网友们更期待R2的发布了!

混合推理,编程击败Claude 4

这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。

同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:

  • <|search▁begin|> (id: 128796)

  • <|search▁end|> (id: 128797)

  • (id: 128798)

  • (id: 128799)

对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。

而且,它的成本仅1美元,成为非推理模型中的SOTA。

最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。

在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。

在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。

一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。

一手实测

第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。

假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著

实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。

由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。

此次更新,DeepSeek重点强调了对上下文的支持。

整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。

不过最后,差不多只输出了3000字左右,模型就停止了输出。

再来看下推理能力。

经典的9.11和9.9比大小问题,两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528,主打的是编程能力。

看看这次V3.1是否有更大的提升。

最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果,你觉得哪个更好?

接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。

参考资料:HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

江山挥笔
2026-06-02 18:47:02
佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

山河路口
2026-06-02 19:29:15
日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本物语
2026-06-02 21:05:34
随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

侧身凌空斩
2026-06-02 23:15:57
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

削桐作琴
2026-06-02 20:05:30
“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻
2026-06-02 19:35:11
女海王谈三男事件:女法学高材生同时谈3男友,地域错开、时间拆分,全程互不打扰,全员被蒙在鼓里,全部收获彩礼买房买车。

女海王谈三男事件:女法学高材生同时谈3男友,地域错开、时间拆分,全程互不打扰,全员被蒙在鼓里,全部收获彩礼买房买车。

贴小君
2026-06-01 22:42:46
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

青橘罐头
2026-06-02 23:02:34
言论有边界!司马南诋毁红牛品牌侵权被判强制执行

言论有边界!司马南诋毁红牛品牌侵权被判强制执行

经理人杂志
2026-06-02 11:09:47
武大校花陈怡:嫁非洲丈夫被迫轮流接客!50岁父亲解救失败后自缢

武大校花陈怡:嫁非洲丈夫被迫轮流接客!50岁父亲解救失败后自缢

莫地方
2026-06-03 01:35:03
马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

BB姬
2026-06-02 22:35:44
“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

新浪财经
2026-06-02 17:38:32
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

南方都市报
2026-05-31 14:26:27
一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

深圳晚报
2026-06-02 14:20:18
这4个行业,已经发不出工资了!真的很严重了

这4个行业,已经发不出工资了!真的很严重了

细说职场
2026-06-02 21:15:53
想拿钢丝球搓!深圳一女子长期熬夜吃外卖,皮肤黄、浑身痒!竟确诊“癌王”

想拿钢丝球搓!深圳一女子长期熬夜吃外卖,皮肤黄、浑身痒!竟确诊“癌王”

南方都市报
2026-06-02 08:41:12
谌旭彬:百姓躺平摆烂,食税群体怎么办?

谌旭彬:百姓躺平摆烂,食税群体怎么办?

老郭在学习
2026-06-01 17:12:48
骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

念洲
2026-06-02 19:16:48
2026-06-03 07:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15372文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

手机
教育
房产
亲子
艺术

手机要闻

苹果获新专利 在iPhone摄像头模组内注入矿物油散热

教育要闻

校长最强大的内心素养,就2个字 | 余国庆

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

亲子要闻

姐弟俩画画的欢乐时光

艺术要闻

二十年前割麦的场景

无障碍浏览 进入关怀版