SWE-Bench Verified榜单上,DeepSeek V4 Pro以80.6%的成绩刷新了纪录。这个数字超过了Claude Sonnet 4的77.2%、GPT-5的74.9%和Gemini 2.5的71.8%。这是开源权重模型首次在代码生成基准上全面超越同期闭源产品。
GPQA Diamond测试中,V4 Pro拿到90.1分,已逼近顶尖闭源推理模型的水平。更关键的是上下文窗口——100万token,足以吞下整个代码库做全局分析。权重文件今天就能下载,部署到本地GPU集群后,源代码不会流向任何第三方API。
![]()
这一点恰恰是整件事的核心。对企业来说,代码资产不出内网是硬需求。金融、医疗、芯片设计等行业的合规红线,过去只能被迫接受闭源模型的功能阉割或天价私有化部署。现在有一套公开权重、性能更强的替代方案摆在桌上。
![]()
不过榜单领先是暂时的。开源模型的迭代速度意味着Llama 4、Qwen 3.5、Gemma 4和Mistral的新版本随时可能反超。这种" leapfrog "竞争已成常态,开发者真正该关注的是模型权重的可获取性——它决定了你是被供应商锁定,还是保有迁移和定制的自由。
![]()
80.6%这个数字会过时,但开源权重模型首次在核心生产力场景击败闭源对手,这个拐点已经确立。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.