网易首页 > 网易号 > 正文 申请入驻

DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

0
分享至

新智元报道

编辑:桃子 定慧

【新智元导读】DeepSeek V3.1新版正式上线,上下文128k,编程实力碾压Claude 4 Opus,成本低至1美元。

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。

本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。

综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:

  • 编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。

  • 性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。

  • 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。

  • 架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。

  • 成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。

值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

对于这波更新,大家的热情可谓是相当高涨。

即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

DeepSeek粉丝数已破8万

看到这里,网友们更期待R2的发布了!

混合推理,编程击败Claude 4

这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。

同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:

  • <|search▁begin|> (id: 128796)

  • <|search▁end|> (id: 128797)

  • (id: 128798)

  • (id: 128799)

对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。

而且,它的成本仅1美元,成为非推理模型中的SOTA。

最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。

在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。

在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。

一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。

一手实测

第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。

假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著

实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。

由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。

此次更新,DeepSeek重点强调了对上下文的支持。

整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。

不过最后,差不多只输出了3000字左右,模型就停止了输出。

再来看下推理能力。

经典的9.11和9.9比大小问题,两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528,主打的是编程能力。

看看这次V3.1是否有更大的提升。

最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果,你觉得哪个更好?

接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。

参考资料:HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《镖人》冲击全球冠军,差距仅200万,吴京成中国第一巨星

《镖人》冲击全球冠军,差距仅200万,吴京成中国第一巨星

影视高原说
2026-03-29 16:14:04
《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

中国经营报
2026-03-29 16:39:28
明天,A股迎来关键一战,这些板块要注意,不要补仓,不要抄底

明天,A股迎来关键一战,这些板块要注意,不要补仓,不要抄底

风风顺
2026-03-30 06:24:34
买牛肉,建议:少买牛腱子和牛腩,多买这3种,不贵还好吃

买牛肉,建议:少买牛腱子和牛腩,多买这3种,不贵还好吃

复转这些年
2026-03-29 19:01:45
送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

离离言几许
2026-03-28 15:02:25
4月1日严查升级!私家车这几类行为,抓到直接罚!

4月1日严查升级!私家车这几类行为,抓到直接罚!

普陀动物世界
2026-03-30 00:17:56
是前世记忆还是平行宇宙?牛启文的经历,让专家也感到费解

是前世记忆还是平行宇宙?牛启文的经历,让专家也感到费解

郁郁乎文
2025-02-13 21:50:34
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
为啥越来越多人开始怀疑学历?上世纪70年代的诺奖论文早就说清了

为啥越来越多人开始怀疑学历?上世纪70年代的诺奖论文早就说清了

知识圈
2026-03-29 13:10:14
浪姐7先导片塞32位姐姐,镜头多少不重要,有烟火气才能打动观众

浪姐7先导片塞32位姐姐,镜头多少不重要,有烟火气才能打动观众

子夜观综记
2026-03-29 20:55:10
“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

都市快报橙柿互动
2026-03-29 12:26:05
巴基斯坦的尴尬:面子丢尽,里子空空,不得不转身向伊朗示好

巴基斯坦的尴尬:面子丢尽,里子空空,不得不转身向伊朗示好

民间胡扯老哥
2026-03-29 20:26:24
32岁女生自述得艾滋病过程,原因是见了一次网友,如今十分后悔

32岁女生自述得艾滋病过程,原因是见了一次网友,如今十分后悔

千秋文化
2026-03-29 20:59:49
江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

财经老庄
2026-03-27 18:40:20
李荣浩正面开撕单依纯,很多人根本不明白李荣浩的愤怒点在哪里

李荣浩正面开撕单依纯,很多人根本不明白李荣浩的愤怒点在哪里

流云随风去远方
2026-03-30 03:24:06
暴雨蓝色预警继续:广西广东等地部分地区有大暴雨

暴雨蓝色预警继续:广西广东等地部分地区有大暴雨

界面新闻
2026-03-30 07:01:03
C罗开口,弗洛伦蒂诺立刻答应:这一份体面,只有皇马能给C罗

C罗开口,弗洛伦蒂诺立刻答应:这一份体面,只有皇马能给C罗

老汆古装影视解说
2026-03-29 20:51:47
她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

以茶带书
2026-03-29 20:58:52
农村家长晒5个儿子,被网友群嘲:送外卖都费劲,还为国效力呢?

农村家长晒5个儿子,被网友群嘲:送外卖都费劲,还为国效力呢?

今朝牛马
2026-03-27 18:23:13
4月1日医保新规落地!缺2样东西报销从80%砍到50%,很多人不清楚

4月1日医保新规落地!缺2样东西报销从80%砍到50%,很多人不清楚

老特有话说
2026-03-29 13:55:54
2026-03-30 08:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14845文章数 66723关注度
往期回顾 全部

科技要闻

中国科学院院士:全固态电池或至少再等5年

头条要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

头条要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

数码
亲子
本地
公开课
军事航空

数码要闻

假SSD越来越真了!测速7255MB/s、容量校验全过:大文件拷贝才露馅

亲子要闻

罕见五胞胎全保住,20多名医护深夜齐上阵

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版