刚刚,DeepSeek正式发布实验性模型 DeepSeek-V3.2-Exp。DeepSeek称其为“迈向新一代架构的中间步骤”。
据介绍,该模型在V3.1-Terminus的基础上首次引入 DeepSeek Sparse Attention(一种稀疏注意力机制),探索长文本场景下训练与推理效率的优化。
官方表示,V3.2-Exp在公开评测集上的表现与V3.1-Terminus基本持平,但在成本和效率上实现突破。
受益于新机制,DeepSeek将API调用价格下调50%以上,新价格已即时生效。
V3.2-Exp已同步更新至DeepSeek官方App、网页端与小程序,并在HuggingFace和魔搭平台开源,相关论文也已公开。与此同时,DeepSeek开放了包括 TileLang与CUDA版本的GPU算子,以支持社区研究和快速迭代。
作为实验性版本,DeepSeek仍邀请用户在实际场景中进行更大规模的测试。为便于对比,公司临时保留了V3.1-Terminus的API接口,该通道将开放至2025年10月15日。(袁宁)
本文来自网易科技报道,更多资讯和深度内容,关注我们。