大家好,我是 Ai 学习的老章
昨天大模型世界很热闹,其实最近新模型一直不断,尤其是 Qwen,中间我也有测试,时间紧张没有发文
DeepSeek-V3.1-Terminus
这是 V3.1 的一次小升级,核心应该是解决之前爆出的“极”bug 还有多语言混在问题
DeepSeek-V3.1 上线后,有用户反馈在用 API 调用模型时,会偶尔出现一个严重 Bug:模型会不受控地随机输出“极”、“極”、“extreme”等字样,严重影响日常使用,如果未经仔细检查就使用含有这一 Bug 的代码,很可能导致编译失败。
基准
DeepSeek-V3.1
DeepSeek-V3.1-Terminus
无工具使用推理模式
MMLU-Pro
84.8
85.0
GPQA-Diamond
80.1
80.7
huanity's last test
15.9
21.7
LiveCodeBench
74.8
74.9
Codeforces
2091
2046
Aider-Polyglot
76.3
76.1
代理工具使用
BrowseComp
30.0
38.5
BrowseComp-zh
49.2
45.0
SimpleQA
93.4
96.8
SWE Verified
66.0
68.4
SWE-bench 多语言
54.5
57.8
Terminal-bench
31.3
36.7
Terminius 最突出的表现是Agent 能力,Code Agent 与 Search Agent 的表现都有提高。
不过,眼见的网友应该发现了,升级后的模型在 Codeforces 和 Aider-Polyglot 这两个编程相关的竞技场上的表现居然都有小幅下降。不过无伤大雅,最起码修复“极”bug 后可用性大幅增加。
目前访问https://chat.deepseek.com/就是最新的 Terminius 模型了
模型也已开源:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
![]()
模型文件 689 GB!
这玩意太大,本地部署我是玩不转,我有一台 500GB 内存的超级电脑准备 llama.cpp 纯内存模型启动一下量化模型试试。
不过这要等到 unsloth 放出 Terminius 量化版模型之后了,我还是蛮强期待的。 unsloth 之前的V3.1量化版号称:
1 位 Dynamic 量化 DeepSeek-V3.1 从671GB 压缩至 192GB(体积减少 75%),其无思考模式性能超越 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
3 位Unsloth DeepSeek-V3.1(思考模式)GGUF:性能超越 Claude-4-Opus(思考模式)。
最后,V4 国庆节会来吗?以往惯例,每逢佳节,DeepSeek必发新模型。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.