网易首页 > 网易号 > 正文 申请入驻

终于发了!DeepSeek发布并开源V3.1,迄今为止最强大的开放AI

0
分享至

DeepSee k宣布推出新一代开源大语言模型DeepSeek-V3.1,并将其权重和代码在 GitHub等平台上开放。

这一模型延续了DeepSeek-V3的强大能力,并在多个关键方面进行了升级。

01|模型参数与架构

DeepSeek-V3.1采用了改进的Transformer架构,总参数规模达到约6850亿。

其中采用了Mixture-of-Experts(MoE)稀疏专家方案,每个token推理时激活约370亿参数。

值得一提的是,DeepSeek-V3.1取消了传统MoE所需的负载均衡损失,避免了额外开销。

同时引入多token预测训练目标,进一步增强模型性能。

在训练过程中,DeepSeek团队使用了FP8混合精度和自研的DualPipe流水线并行算法,在2048张NVIDIA H800 GPU上完成了14.8万亿token的预训练,整个过程稳定高效,没有出现不可恢复的损失激增。


02|上下⽂窗⼝扩展

DeepSeek-V3.1最大的改进在于上下文长度的显著扩展。

新版本将模型的上下文窗口提升到128K tokens(约相当于300页文本)。

这意味着模型在一次交互中可以处理和记忆远超以往的信息量,能够支持更长的对话和更大规模的文档分析。

为了实现超长上下文,DeepSeek采用了名为YaRN(Yet another Random Noise)的位置编码扩展方案。

通过在长上下文训练中引入随机噪声扰动,模型在保持长程依赖建模能力的同时,有效缓解了长序列训练的不稳定问题。

实际测试显示,DeepSeek-V3.1在不同长度上下文下表现稳健,即使输入长达128K tokens时依然能够准确定位关键信息。

03|性能表现

凭借更大的参数规模和优化的训练策略,DeepSeek-V3.1在各项基准测试中表现优异。

综合评估显示,它不仅超越了此前所有开源模型的水平,而且在许多任务上达到了与领先闭源模型相当的性能。

例如, 在知识问答和推理测试(MMLU-Pro等) 上, DeepSeek-V3.1的准确率达到75.9%。

在数学和代码领域,该模型更是展现出强大实力:在MATH数学题基准上准确率超过90%。

在Codeforces编程竞赛评测中,其解题能力达到前51.6百分位,大幅领先其他开源模型。

在长文档理解的“大海捞针”(NeedleInAHaystack)测试中,DeepSeek-V3.1在不同长度上下文下均能保持高准确率,展现了扩展至128K后的稳健表现。

总体而言,DeepSeek-V3.1被认为是目前最强大的开源大模型。


04|开源与获取⽅式

DeepSeek-V3.1延续了DeepSeek一贯的开放策略,将模型权重和代码完全开源发布。

开发者可以在GitHub、Hugging Face等平台获取模型权重及推理代码。

DeepSeek官方还提供了多种本地部署方案和推理工具,包括轻量级的FP8/BF16推理演示、社区优化的推理框架(如LMDeploy、 vLLM等)以及分布式推理实现。

对于不具备大规模算力的用户,DeepSeek在其官方平台上提供了在线体验和API接口。用户现在可以通过网页端、对V3.1模型进行使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
境外势力掏钱让你“躺平”?这波操作,真把年轻人当韭菜割了

境外势力掏钱让你“躺平”?这波操作,真把年轻人当韭菜割了

迷世书童H9527
2026-04-28 10:30:43
17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

观威海
2026-04-28 18:12:05
鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

懂球帝
2026-04-29 10:22:08
7550万年薪!季后赛被横扫!!冤?太冤了!

7550万年薪!季后赛被横扫!!冤?太冤了!

柚子说球
2026-04-29 21:33:15
俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

潮鹿逐梦
2026-04-29 01:17:49
国产轮胎是“神话”还是“笑话”?

国产轮胎是“神话”还是“笑话”?

新浪财经
2026-04-27 18:46:25
同为清朝割让的领土,为什么香港能收回,海参崴却没有动静?

同为清朝割让的领土,为什么香港能收回,海参崴却没有动静?

抽象派大师
2026-04-29 00:14:58
利雅得胜利2-0吉达国民暂8分优势领跑,C罗头槌,科曼建功

利雅得胜利2-0吉达国民暂8分优势领跑,C罗头槌,科曼建功

懂球帝
2026-04-30 04:23:42
快讯:2026年5月开始的严打与80年代的严打有何不同?

快讯:2026年5月开始的严打与80年代的严打有何不同?

辉哥说动漫
2026-04-30 00:22:41
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
纳斯达克中国金龙指数跌幅扩大,现跌0.5%,最新报6799.64点

纳斯达克中国金龙指数跌幅扩大,现跌0.5%,最新报6799.64点

每日经济新闻
2026-04-29 22:11:09
这是徐怀钰?不化妆真的一点儿都认不出来!

这是徐怀钰?不化妆真的一点儿都认不出来!

酸辣娱乐
2026-04-29 12:35:47
商业航天概念龙头三年亏损49亿,此前股价两个月暴涨近4倍

商业航天概念龙头三年亏损49亿,此前股价两个月暴涨近4倍

每日经济新闻
2026-04-29 22:07:43
男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

大爱三湘
2026-04-28 19:39:24
六台主持人:皇马新任主帅的最终候选人是穆里尼奥和克洛普

六台主持人:皇马新任主帅的最终候选人是穆里尼奥和克洛普

懂球帝
2026-04-30 02:38:05
日本确认一艘日本籍超级油轮已通过霍尔木兹海峡

日本确认一艘日本籍超级油轮已通过霍尔木兹海峡

财联社
2026-04-29 14:52:10
6月1日交强险正式大改!950元彻底取消,老实车主直接省一半

6月1日交强险正式大改!950元彻底取消,老实车主直接省一半

蓝色海边
2026-04-28 04:20:19
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
张雪峰的财产争夺战开始了!

张雪峰的财产争夺战开始了!

八卦疯叔
2026-04-29 11:08:54
俄罗斯前10大炼油厂停产5个!彼尔姆石油枢纽遭受重创

俄罗斯前10大炼油厂停产5个!彼尔姆石油枢纽遭受重创

项鹏飞
2026-04-29 19:13:54
2026-04-30 04:59:00
AI变革 incentive-icons
AI变革
AI时代的变革,无论你主不主动,都与你有关
144文章数 16关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

时尚
游戏
旅游
家居
公开课

夏天穿维希格,原来这么好看

平等曹飞所有老玩家的危机合约,为何是二游高难玩法最高的山?

旅游要闻

48家公园推出110项假日特色活动

家居要闻

寂然无界 简洁风格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版