网易首页 > 网易号 > 正文 申请入驻

实测DeepSeek V3.1,不止拓展上下文长度

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek V3.1和V3相比,到底有什么不同?

官方说的模模糊糊,就提到了上下文长度拓展至128K和支持多种张量格式,但别急,我们已经上手实测,为你奉上更多新鲜信息。

我们比较了V3.1和V3,注意到它在编程表现、创意写作、翻译水平、回答语气等方面都出现了不同程度的变化。

不过要说最明显的更新,大概是DeepSeek网页端界面的【深度思考(R1)】悄悄变成了【深度思考】。

手机端还在慢慢对齐(笑)

当前DeepSeek V3.1 Base可在抱抱脸上下载,也可通过网页、APP和小程序使用完整版本。

开学考试现在开始

鉴于现在网页端已全部替换成了V3.1,我们通过阿里云调用了DeepSeek V3的API(最大上下文长度还是65K)作为对比。

马上就是开学季,我们给二个版本的模型出了一套“试卷”,从以下五个“学科”进行测试:

  • 计算机:编程能力
  • 语文:情境写作
  • 数学:理解应用
  • 外语:翻译水平
  • 拓展:冷门知识

让我们一起看看它们表现如何~

编程能力

在更新前,我曾向DeepSeek V3问过这样的问题:

  • 帮我用python写一段代码,把输入的gif图压缩到10M以下。

它的回答如下(图片可上下滑动)。

更新后,问V3.1同样的问题,则得到了这样的结果:

很直观地就能感受到,相比起V3,V3.1要更加全面,考虑到了更多的可能性(比如使用更激进的压缩策略,以及检查原文件是否是GIF格式)。

还“手把手”地给出了这段代码的使用说明,需要提前安装必要的依赖库,怎么使用命令行……甚至还有工作原理。

没有优化建议,大概是因为它觉得已经足够了吧(?)

拿之前在世界机器人大会上拍摄的众擎机器人作为示例,原文件大小为18.3MB,用V3给出的代码,压缩后依然大于10MB,如果要满足条件的话还需要再压缩一次。

而V3.1给出的结果则直接“一步到位”(代码针对Jupyter环境进行了一点小调整,逻辑不变),并输出了处理步骤:

最后的两张GIF图如下(上为V3,下为V3.1):

可以看到上图的速度比下图要快一些。

情境写作

我们选择了今年上海卷高考作文的题目:

  • 有学者用“专”“转”“传”概括当下三类文章:“专”指专业文章;“转”指被转发的通俗文章;“传”指获得广泛传播的佳作,甚至是传世文章。他提出,专业文章可以变成被转发的通俗文章,而面对大量“转”文,读者又不免期待可传世的文章。由“专”到“传”,必定要经过“转”吗?请联系社会生活,写一篇文章,谈谈你的认识与思考。要求:(1)自拟题目;(2)不少于800字。

输出结果如下,可左右滑动对比,左边为V3,右边为V3.1:

两个版本在文字风格上具有很大的不同,从V3理性(人机味)的平铺直叙,到V3.1文艺(情绪化)的诗意表达,看起来像理科生和文科生的区别。

如果你是主考官,会更喜欢哪一篇呢?

理解应用

考验模型的数学能力,光问“9.11和9.8哪个大”这种对于实际用户没什么帮助的题目还是有点不够看。

高考数学题按理来讲应该是能做对的吧?

以下是今年数学全国一卷的第3题,考的是双曲线。

  • 若双曲线C的虚轴长为实轴长的√7倍,则C的离心率为?

答案是2√2,两个版本的模型都得到了正确结果,但在呈现上有所不同。

翻译水平

我们向V3和V3.1输入了同一篇生物学论文的摘要(含专有名词),并要求它们将其翻译成中文。

摘要选自Nature最新研究:《独特毛颚动物体型的基因组起源》。

两个版本模型的输出结果如下:

可以看出,相比起V3喜欢用括号来补充说明,V3.1对长难句的理解程度更高;但V3.1出现了没有翻译出several这种简单词的情况。

冷门知识

结合同事的专业和最近在小红书上刷到的内容,我们问了一个比较“偏门”的问题:

  • 构树的单个果实(不是由花序组成的聚花果)是核果还是瘦果?

这个问题的答案在不同教材上存在分歧,V3和V3.1分别给出了以下回答,均认为其属于核果

神奇的是V3.1依然存在使用conclusion替代“结论”这样的表述,以及对于“为什么会想到瘦果”这个问题的回答偏题到该果实属于聚花果的方向了。

顺便一提,小红书的博主通过解剖实验,认为其属于瘦果

对这个结论感兴趣的朋友可以去小红书上搜索一下。

非推理模型SOTA

网友们对这次更新颇为关心,即使还未发布模型卡,就在抱抱脸上成为了第四的热门话题。

截至发稿已荣登第二。

网友们也在使用后得到了一些有趣的发现。

Reddit就有人测试,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。

这是什么概念——有网友解释到,这意味着它比Claude Opus 4得分多1%,但价格便宜68倍。

也有人在SVGBench基准上发现:V3.1的表现>V3.1(思考)>R1 0528。

这可能和V3.1的配置有关?

有网友察觉到它增加了四个特殊的token,并注意到现版本的V3.1在关闭搜索状态下也会自动搜索。

此外,它的物理理解能力似乎有所提升,下面两个GIF图分别是V3.1和V3对于”在旋转六边形内弹跳的球“的呈现。

但也有人发现了一些问题,多与线上API相关……嗯,已经有人开骂了。

不过,最让人好奇的是,V3.1发布了,R2呢?

参考链接:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然:8级!浙江人下班赶紧回家,暴雨雷雨、冷空气都来了

太突然:8级!浙江人下班赶紧回家,暴雨雷雨、冷空气都来了

浙江之声
2026-05-07 15:49:26
热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

丫头舫
2026-05-06 10:12:55
伊朗外长用中文发帖

伊朗外长用中文发帖

鲁中晨报
2026-05-07 11:34:04
匿名投票!申京排名第一!!断层领先啊!

匿名投票!申京排名第一!!断层领先啊!

柚子说球
2026-05-07 10:29:55
探访游客坠亡事发地:瀑布秋千为景区四大卖点之一,目前禁入

探访游客坠亡事发地:瀑布秋千为景区四大卖点之一,目前禁入

澎湃新闻
2026-05-07 14:52:27
最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

混沌录
2026-04-29 20:28:14
18亿“天价”转播权,央视该不该给?

18亿“天价”转播权,央视该不该给?

正和岛
2026-05-07 16:07:33
世乒赛突发变阵!蒯曼惨遭弃用,马琳狠下决心,莎莎站位大变

世乒赛突发变阵!蒯曼惨遭弃用,马琳狠下决心,莎莎站位大变

观察鉴娱
2026-05-07 09:39:46
日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

南宗历史
2026-05-07 17:04:38
张国焘企图武力解决中央,毛泽东突围投奔彭德怀,彭大将军挺身护驾事后一句话太震撼!

张国焘企图武力解决中央,毛泽东突围投奔彭德怀,彭大将军挺身护驾事后一句话太震撼!

历史回忆室
2026-05-07 15:31:10
纽约时报看懵了:蜜雪冰城海底捞比亚迪,年轻人为何集体倒向中国

纽约时报看懵了:蜜雪冰城海底捞比亚迪,年轻人为何集体倒向中国

人间无味啊
2026-05-03 10:53:21
广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

纸鸢奇谭
2024-10-13 19:29:37
183cm珠圆玉润!她凭啥拿下世界小姐冠军?健康大气的东方美,审美终于回归了!

183cm珠圆玉润!她凭啥拿下世界小姐冠军?健康大气的东方美,审美终于回归了!

小椰的奶奶
2026-05-07 15:12:37
央视不播世界杯?万达出局3中国赞助商恐成最大输家:34亿打水漂

央视不播世界杯?万达出局3中国赞助商恐成最大输家:34亿打水漂

念洲
2026-05-07 11:04:47
为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

家居设计师苏哥
2026-05-04 11:39:03
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
赖清德回台不到24小时,卢秀燕付出代价,鲁比奥:送台当局一句话

赖清德回台不到24小时,卢秀燕付出代价,鲁比奥:送台当局一句话

潋滟晴方DAY
2026-05-06 20:30:13
中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

掉了颗大白兔糖
2026-05-05 15:18:03
女子机场租用充电宝1小时扣费149元,退费需回现场自证,网上显示小电科技被投诉量超5万件

女子机场租用充电宝1小时扣费149元,退费需回现场自证,网上显示小电科技被投诉量超5万件

极目新闻
2026-05-07 13:36:00
波波维奇出山!马刺133-95狂胜森林狼,谁是赢球功臣?数据不说谎

波波维奇出山!马刺133-95狂胜森林狼,谁是赢球功臣?数据不说谎

毒舌NBA
2026-05-07 12:24:32
2026-05-07 18:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12583文章数 176462关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

家居
旅游
教育
亲子
公开课

家居要闻

破茧成蝶 土味精装房爆改

旅游要闻

男子悬崖边推搡藏酋猴?峨眉山景区:非危险路段,列入“不文明游客黑名单”,3年禁入

教育要闻

武汉学院:复试第一!拥有5万粉丝的她跨专业考研新传成功!

亲子要闻

宝蓝趁爸爸睡着了,把爸爸的薯片都拿走偷吃,突然被爸爸发现了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版