网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍

0
分享至

智能体时代的序幕拉开

AI 领域又一里程碑发布——DeepSeek-V3.1 正式上线,标志着 AI 从单一功能模型向多功能智能体演进的序幕正式拉开。作为迈向智能体时代的第一步,这款 671B 参数模型不仅具备强大的工具使用能力和多步骤任务处理能力,更支持多种 Code Agent 框架,让开发者能自主搭建专属智能体。


核心突破:DeepSeek-V3.1 重新定义 AI 能力边界,从「被动执行指令」转向「主动规划任务」,为智能体时代奠定技术基石。

核心亮点:重新定义大模型能力边界

DeepSeek-V3.1 通过三大技术突破重新定义大模型能力边界,实现效率与性能的跨越式提升。其核心创新采用“技术突破+数据支撑”双轮驱动,构建起更智能、更高效的 AI 能力体系。

首先是混合推理模式的突破性设计,实现“思考(Think)”与“非思考(Non Thinking)”模式的自主切换,达成“一个模型两种能力”的创新性平衡——既能在复杂任务中深度推理,又能在简单问答中高速响应,无需为不同场景切换模型。

其次是参数效率的极致优化,671B 总参数中仅 37B 为激活参数,通过精细化参数管理显著提升运行效率,在保持模型规模优势的同时,大幅降低计算资源消耗。

第三是上下文长度扩展至 128k,可流畅处理超长文档、多轮对话等复杂场景,为法律分析、学术研究等长文本需求提供强大支持。

速度对比:在混合推理模式下,V3.1-Think 较前代 R1-0528 展现出明显的推理速度优势,实现“思考效率飙升,反应快如闪电”的用户体验升级,真正做到“一个模型,两种能力,效率精度双突破”。

这三大亮点的有机结合,使 DeepSeek-V3.1 在保持回答质量与前代相当的基础上,实现了推理效率与场景适应性的全面进化。

技术解析:训练与架构的双重革新

DeepSeek-V3.1的性能突破源于训练与架构的双重革新,核心聚焦数据规模扩张格式优化两大技术支柱。模型采用「两阶段长上下文扩展策略」,通过阶梯式训练实现上下文窗口从32k到128k的跨越:首先在32k阶段将训练量提升10倍至6300亿Token,构建基础语义理解能力;随后在128k阶段进一步扩展3.3倍,达到2090亿Token,强化超长文本处理能力。

两阶段训练量跃升:32k阶段达6300亿Token(较前代提升10倍),128k阶段增至2090亿Token(扩展3.3倍),形成覆盖多尺度文本的训练数据底座。

格式优化方面,DeepSeek-V3.1采用UE8M0 FP8缩放数据格式,通过精准的数值压缩技术,在保证微尺度数据兼容性与计算精度的同时,有效降低训练过程中的内存占用与算力消耗。这种"数据-格式"协同优化的架构设计,为671B参数模型实现高效训练与性能突破提供了底层支撑。

性能突破:全面碾压竞品的基准成绩单

DeepSeek-V3.1 在多项权威基准测试中展现出颠覆性性能,其 671B 参数模型的实力通过编程、数学推理与工具调用三大核心领域的成绩单得到充分验证,全面超越前代模型及行业竞品。


在编程能力测试中,DeepSeek-V3.1-Thinking 版本在 Aider 编码测试中斩获 76.3% 的高分,这一成绩不仅显著领先于 Claude 4 Opus 的 68.2%,还超越了 Gemini 2.5 Pro(0325)等主流闭源模型,凸显了开源大模型在高难度编码任务上的强劲竞争力。

数学推理领域,DeepSeek-V3.1 实现了突破性进展,刷新该领域 SOTA(State-of-the-Art)成绩,在人类的最后考试 HLE 中拿下 29.8 分的高分,同时在数学任务中全面超越推理模型 R1,进一步巩固了其在复杂逻辑运算领域的行业领先地位。

工具调用能力方面,该模型在 BrowseComp 基准测试中表现尤为突出,实力“粉碎”前代模型 R1,展现出对多轮搜索任务的高效处理能力,证明其在真实世界场景中整合外部工具解决复杂问题时的可靠性。

三大核心能力亮点

  • 编程优势

    :Aider 测试 76.3% 得分,开源模型首次在该场景超越 Claude 4

  • 数学突破

    :HLE 29.8 分+SOTA 成绩,重构行业推理能力标准

  • 工具整合

    :BrowseComp 测试碾压竞品,多轮任务处理效率行业领先

综合来看,DeepSeek-V3.1 的基准测试结果不仅验证了其参数规模的优势,更体现了模型在算法优化与场景适配层面的深度突破,为 AI 技术在专业领域的落地提供了更强有力的支持。

应用场景:从代码助手到智能体开发

DeepSeek-V3.1 围绕开发者核心需求,实现了从单一代码助手到多功能智能体开发平台的跨越,两大场景展现显著价值。在代码智能体领域,其创新的 Non Thinking 模式较 R1 版本效率提升 30%+,配合对多种 Code Agent 框架的原生支持,开发者可快速搭建个性化编码智能体,显著缩短开发周期。

面对依赖外部信息的复杂任务,Search Agent 功能成为关键突破。当处理实时数据查询等需要最新知识的场景时,V3.1 能自动触发多轮工具调用流程,通过用户提供的搜索工具动态获取外部信息,解决传统模型“知识滞后”痛点。这种“AI 自主决策 + 工具协同”的模式,让智能体具备处理开放域问题的能力,为开发者构建更强大的应用生态奠定基础。

核心价值:30%+ 的编码效率提升直接转化为开发者的时间节省,而多轮工具调用能力则让 AI 从“被动响应”升级为“主动解决问题”,推动开发范式向智能化迈进。

开发者资源:开源与API双重支持

DeepSeek-V3.1为开发者提供"即开即用"的资源配置,兼顾开源灵活性与API便捷性。开源方面,在Hugging Face平台发布两个版本:Base版在V3基础上完成8400亿token持续预训练并扩展上下文支持,项目地址为https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base;另一版本项目地址为https://huggingface.co/deepseek-ai/DeepSeek-V3.1。

API服务提供两种调用模式适配不同场景:deepseek-chat(非思考模式)侧重快速响应,deepseek-reasoner(思考模式)擅长复杂推理,两者均支持128k上下文长度。

成本优化方面,新定价策略将于9月5日正式实施,进一步降低开发者使用门槛,助力快速接入与应用落地。

API模式对比

  • 非思考模式(deepseek-chat):适用于即时问答、信息检索等轻量场景

  • 思考模式(deepseek-reasoner):适配逻辑推理、代码生成等复杂任务
    共同特性:均支持128k超长上下文

重新定义AI能力边界的里程碑

DeepSeek-V3.1的发布标志着AI发展的关键转折点,其三大突破性进展共同重塑了大模型的能力边界。在参数效率上,671B总参数仅37B激活的创新设计,重新定义了资源利用的极限;推理模式上,混合推理技术实现效率与精度的动态平衡;开源生态上,通过开源模型与API服务构建协同发展体系。这些突破不仅让AI更高效、更灵活,更推动行业向智能体时代加速迈进,为未来AI与人类协作开辟了无限可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
用轨道武器干扰中国卫星,中方知道美军没下限,留的后手就为这天

用轨道武器干扰中国卫星,中方知道美军没下限,留的后手就为这天

阿筀田间生活
2025-11-06 11:38:06
泰国前总理牵涉350亿案,NACC出手调查,阿努廷表态不干预

泰国前总理牵涉350亿案,NACC出手调查,阿努廷表态不干预

云景侃记
2025-11-07 21:32:19
县城险象环生,你千万不要被表面的平静给蒙蔽了。

县城险象环生,你千万不要被表面的平静给蒙蔽了。

流苏晚晴
2025-10-31 20:55:43
特朗普:有人威胁我,说我继续做中国就赢了,赢就赢吧我不在乎

特朗普:有人威胁我,说我继续做中国就赢了,赢就赢吧我不在乎

前沿天地
2025-11-08 07:59:43
同学聚会每人出9800元,我没去,隔天警察上门:昨夜你同学出事了

同学聚会每人出9800元,我没去,隔天警察上门:昨夜你同学出事了

红豆讲堂
2025-11-05 16:50:03
恭喜!23岁落选港姐正式签约TVB,前艺人爸爸分享喜悦

恭喜!23岁落选港姐正式签约TVB,前艺人爸爸分享喜悦

日落于西
2025-11-07 17:02:50
曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

乡野小珥
2025-11-07 14:58:46
一大波明星扎堆现身上海!唐嫣、李宇春、吴奇隆、郑钦文…都往这里冲!

一大波明星扎堆现身上海!唐嫣、李宇春、吴奇隆、郑钦文…都往这里冲!

新民晚报
2025-11-07 16:40:11
为什么电商税一收,意味着电商的黄金时代结束了

为什么电商税一收,意味着电商的黄金时代结束了

诗意世界
2025-11-07 09:19:28
11月起咸鱼翻身,家有哪些生肖财运大开,事业喜事接二连三到来

11月起咸鱼翻身,家有哪些生肖财运大开,事业喜事接二连三到来

人閒情事
2025-11-05 22:13:55
一句话炸掉5000亿美元市值!OpenAI紧急“救火”

一句话炸掉5000亿美元市值!OpenAI紧急“救火”

第一财经资讯
2025-11-07 18:19:04
赫尔松大捷:俄军指挥所遭端,副司令及 12 名军官阵亡

赫尔松大捷:俄军指挥所遭端,副司令及 12 名军官阵亡

世界探索者探索
2025-11-07 21:28:48
陪玩陪睡只是开胃菜,袭警、舔手指、集体嫖娼,背后的事捂不住了

陪玩陪睡只是开胃菜,袭警、舔手指、集体嫖娼,背后的事捂不住了

叨唠
2025-11-06 18:00:17
新任市委书记低调参加家长会,班主任嘲讽他:你儿子不配进重点班

新任市委书记低调参加家长会,班主任嘲讽他:你儿子不配进重点班

红豆讲堂
2025-10-05 16:30:07
离婚14年,谢霆锋张柏芝联手揭穿王菲“体面”

离婚14年,谢霆锋张柏芝联手揭穿王菲“体面”

梁猕爱玩车
2025-11-05 04:04:14
佩工:建议足球比赛使用后场违例规则,球过中线不能回传

佩工:建议足球比赛使用后场违例规则,球过中线不能回传

懂球帝
2025-11-07 10:50:55
关于爸妈的瓜能有多炸裂?网友:这搁古代都是浸猪笼的大罪啊!

关于爸妈的瓜能有多炸裂?网友:这搁古代都是浸猪笼的大罪啊!

解读热点事件
2025-11-02 14:48:17
140国确定出席,特朗普不来了!中美代表正面交锋,耿爽不再客气

140国确定出席,特朗普不来了!中美代表正面交锋,耿爽不再客气

娱乐小可爱蛙
2025-11-07 12:17:47
从柏克到哈耶克——四位先知的预言,在今天正在被一一验证

从柏克到哈耶克——四位先知的预言,在今天正在被一一验证

尚曦读史
2025-10-19 09:13:09
封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

书雁飞史oh
2025-11-06 19:05:31
2025-11-08 09:16:49
前沿科技学习分享圈 incentive-icons
前沿科技学习分享圈
朝看花开满树红,暮看花落树还空。若将花比人间事,花与人间事一同。
1533文章数 367关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

头条要闻

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

艺术
家居
房产
健康
军事航空

艺术要闻

Eric Drummond:加拿大90后年轻画家

家居要闻

现代自由 功能美学居所

房产要闻

全国2025唯一“开盘即百亿”在广州诞生

超声探头会加重受伤情况吗?

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版