DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍|调用|智能体|上下文|大模型|deepseek

DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

分享至

智能体时代的序幕拉开

AI 领域又一里程碑发布——DeepSeek-V3.1 正式上线，标志着 AI 从单一功能模型向多功能智能体演进的序幕正式拉开。作为迈向智能体时代的第一步，这款 671B 参数模型不仅具备强大的工具使用能力和多步骤任务处理能力，更支持多种 Code Agent 框架，让开发者能自主搭建专属智能体。

核心突破：DeepSeek-V3.1 重新定义 AI 能力边界，从「被动执行指令」转向「主动规划任务」，为智能体时代奠定技术基石。

核心亮点：重新定义大模型能力边界

DeepSeek-V3.1 通过三大技术突破重新定义大模型能力边界，实现效率与性能的跨越式提升。其核心创新采用“技术突破+数据支撑”双轮驱动，构建起更智能、更高效的 AI 能力体系。

首先是混合推理模式的突破性设计，实现“思考（Think）”与“非思考（Non Thinking）”模式的自主切换，达成“一个模型两种能力”的创新性平衡——既能在复杂任务中深度推理，又能在简单问答中高速响应，无需为不同场景切换模型。

其次是参数效率的极致优化，671B 总参数中仅 37B 为激活参数，通过精细化参数管理显著提升运行效率，在保持模型规模优势的同时，大幅降低计算资源消耗。

第三是上下文长度扩展至 128k，可流畅处理超长文档、多轮对话等复杂场景，为法律分析、学术研究等长文本需求提供强大支持。

速度对比：在混合推理模式下，V3.1-Think 较前代 R1-0528 展现出明显的推理速度优势，实现“思考效率飙升，反应快如闪电”的用户体验升级，真正做到“一个模型，两种能力，效率精度双突破”。

这三大亮点的有机结合，使 DeepSeek-V3.1 在保持回答质量与前代相当的基础上，实现了推理效率与场景适应性的全面进化。

技术解析：训练与架构的双重革新

DeepSeek-V3.1的性能突破源于训练与架构的双重革新，核心聚焦数据规模扩张与格式优化两大技术支柱。模型采用「两阶段长上下文扩展策略」，通过阶梯式训练实现上下文窗口从32k到128k的跨越：首先在32k阶段将训练量提升10倍至6300亿Token，构建基础语义理解能力；随后在128k阶段进一步扩展3.3倍，达到2090亿Token，强化超长文本处理能力。

两阶段训练量跃升：32k阶段达6300亿Token（较前代提升10倍），128k阶段增至2090亿Token（扩展3.3倍），形成覆盖多尺度文本的训练数据底座。

格式优化方面，DeepSeek-V3.1采用UE8M0 FP8缩放数据格式，通过精准的数值压缩技术，在保证微尺度数据兼容性与计算精度的同时，有效降低训练过程中的内存占用与算力消耗。这种"数据-格式"协同优化的架构设计，为671B参数模型实现高效训练与性能突破提供了底层支撑。

性能突破：全面碾压竞品的基准成绩单

DeepSeek-V3.1 在多项权威基准测试中展现出颠覆性性能，其 671B 参数模型的实力通过编程、数学推理与工具调用三大核心领域的成绩单得到充分验证，全面超越前代模型及行业竞品。

在编程能力测试中，DeepSeek-V3.1-Thinking 版本在 Aider 编码测试中斩获 76.3% 的高分，这一成绩不仅显著领先于 Claude 4 Opus 的 68.2%，还超越了 Gemini 2.5 Pro（0325）等主流闭源模型，凸显了开源大模型在高难度编码任务上的强劲竞争力。

数学推理领域，DeepSeek-V3.1 实现了突破性进展，刷新该领域 SOTA（State-of-the-Art）成绩，在人类的最后考试 HLE 中拿下 29.8 分的高分，同时在数学任务中全面超越推理模型 R1，进一步巩固了其在复杂逻辑运算领域的行业领先地位。

工具调用能力方面，该模型在 BrowseComp 基准测试中表现尤为突出，实力“粉碎”前代模型 R1，展现出对多轮搜索任务的高效处理能力，证明其在真实世界场景中整合外部工具解决复杂问题时的可靠性。

三大核心能力亮点

编程优势
：Aider 测试 76.3% 得分，开源模型首次在该场景超越 Claude 4
数学突破
：HLE 29.8 分+SOTA 成绩，重构行业推理能力标准
工具整合
：BrowseComp 测试碾压竞品，多轮任务处理效率行业领先

综合来看，DeepSeek-V3.1 的基准测试结果不仅验证了其参数规模的优势，更体现了模型在算法优化与场景适配层面的深度突破，为 AI 技术在专业领域的落地提供了更强有力的支持。

应用场景：从代码助手到智能体开发

DeepSeek-V3.1 围绕开发者核心需求，实现了从单一代码助手到多功能智能体开发平台的跨越，两大场景展现显著价值。在代码智能体领域，其创新的 Non Thinking 模式较 R1 版本效率提升 30%+，配合对多种 Code Agent 框架的原生支持，开发者可快速搭建个性化编码智能体，显著缩短开发周期。

面对依赖外部信息的复杂任务，Search Agent 功能成为关键突破。当处理实时数据查询等需要最新知识的场景时，V3.1 能自动触发多轮工具调用流程，通过用户提供的搜索工具动态获取外部信息，解决传统模型“知识滞后”痛点。这种“AI 自主决策 + 工具协同”的模式，让智能体具备处理开放域问题的能力，为开发者构建更强大的应用生态奠定基础。

核心价值：30%+ 的编码效率提升直接转化为开发者的时间节省，而多轮工具调用能力则让 AI 从“被动响应”升级为“主动解决问题”，推动开发范式向智能化迈进。

开发者资源：开源与API双重支持

DeepSeek-V3.1为开发者提供"即开即用"的资源配置，兼顾开源灵活性与API便捷性。开源方面，在Hugging Face平台发布两个版本：Base版在V3基础上完成8400亿token持续预训练并扩展上下文支持，项目地址为https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base；另一版本项目地址为https://huggingface.co/deepseek-ai/DeepSeek-V3.1。

API服务提供两种调用模式适配不同场景：deepseek-chat（非思考模式）侧重快速响应，deepseek-reasoner（思考模式）擅长复杂推理，两者均支持128k上下文长度。

成本优化方面，新定价策略将于9月5日正式实施，进一步降低开发者使用门槛，助力快速接入与应用落地。

API模式对比

非思考模式（deepseek-chat）：适用于即时问答、信息检索等轻量场景
思考模式（deepseek-reasoner）：适配逻辑推理、代码生成等复杂任务
共同特性：均支持128k超长上下文

重新定义AI能力边界的里程碑

DeepSeek-V3.1的发布标志着AI发展的关键转折点，其三大突破性进展共同重塑了大模型的能力边界。在参数效率上，671B总参数仅37B激活的创新设计，重新定义了资源利用的极限；推理模式上，混合推理技术实现效率与精度的动态平衡；开源生态上，通过开源模型与API服务构建协同发展体系。这些突破不仅让AI更高效、更灵活，更推动行业向智能体时代加速迈进，为未来AI与人类协作开辟了无限可能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.