![]()
开源大模型最热闹的时候,市场曾经相信一件事:只要模型权重放出来,只要社区足够活跃,只要有一个DeepSeek式的突破,闭源模型的领先优势迟早会被抹平。
但Epoch AI最新发布的一组数据,把这个叙事往回拽了一下。
这家专注人工智能基准测试与模型能力研究的非营利机构,在5月29日发布的Data Insight中重新审视了开放权重模型与闭源前沿模型之间的能力差距。结论并不乐观:自2026年初以来,开放权重模型相对最强闭源模型,平均落后约4个月。
这比Epoch此前统计的3个月差距,略有扩大。
更重要的是,这个“4个月”不是简单的发布时间差。Epoch用的是自己的综合能力指标ECI,也就是Epoch Capabilities Index。按它的估算,2026年以来,开放权重模型与闭源前沿模型之间平均相差约8个ECI点,大致相当于GPT-5与GPT-5.5之间的能力差距。
换句话说,问题不是“开源模型有没有进步”。它当然在进步,而且进步很快。真正的问题是,闭源模型也在加速,而且加速的方向越来越不是靠外部社区能够轻易复制的。
这也是这份报告真正值得讨论的地方。
过去一年,市场对开源模型的信心很大程度来自DeepSeek-R1。2025年1月,DeepSeek-R1发布后,确实一度改写了市场情绪。它用相对低成本的训练路径,在推理能力上逼近当时最强闭源模型,让外界第一次强烈感受到:中国公司、开放模型、低成本路线,也可以冲到前沿牌桌。
但从Epoch的图表看,DeepSeek-R1更像是一次短暂收敛,而不是趋势逆转。2024年三季度,开放权重模型与闭源模型一度非常接近;DeepSeek-R1发布后,差距也曾被压缩。但进入2026年后,差距没有继续缩小,反而重新拉开。
这说明一个事实:开源模型可以靠单点突破惊艳市场,但要持续站在前沿,需要的是另一套东西。
01:差距扩大的不是模型参数,而是系统能力
今天的大模型竞争,已经不再是“谁的参数更多”“谁的预训练语料更大”这么简单。
在早期阶段,开放模型追赶闭源模型的路径相对清晰:更大的模型、更好的预训练数据、更便宜的推理成本、更高效的训练框架。社区能够复现论文,企业能够开放权重,开发者能够微调部署,差距自然会被快速压缩。
但到了GPT、Claude、Gemini这一代前沿模型,竞争重心变了。
真正决定体验差距的,不只是基础模型本身,而是后训练、强化学习、长上下文处理、工具调用、代码环境、智能体任务、多轮反馈和产品数据闭环。这些东西不再只是“模型权重”能解释的能力,而是一整套工程体系。
这也是为什么用户会明显感受到,很多开放模型在普通问答、翻译、总结、轻量代码上已经很好用,但一旦进入复杂任务,比如长文档推理、跨工具协作、自动写代码并调试、拆解商业问题、持续多轮执行任务,闭源模型仍然更稳。
差距不一定体现在单个榜单分数上,而是体现在真实工作流里。
一个模型能不能连续跑一个小时不跑偏?能不能调用工具后理解返回结果?能不能在复杂代码库里找到问题?能不能在多步骤任务中记住目标、修正错误、避免幻觉?这些能力背后,不是简单堆参数,而是大量高质量任务数据、训练基础设施、自动评测系统、人工反馈体系和产品端用户行为数据。
这正是闭源厂商的优势区。
OpenAI、Anthropic、Google这些公司不只是模型公司,它们更像是AI系统工程公司。它们拥有持续的算力投入、海量用户反馈、企业客户场景、产品化闭环和更强的后训练能力。模型每一次上线,都能从真实使用中拿到数据,再反哺下一轮训练。
开放权重模型当然也能做后训练,但它面对的现实更复杂:算力不稳定,数据不完整,商业化回报周期更长,社区贡献高度分散,很多关键工程细节无法公开复用。
所以,开源和闭源之间的差距,本质上不是“聪明程度”的差距,而是持续投入能力的差距。
02:DeepSeek已经提前说出了问题
其实,DeepSeek自己也很清楚这个变化。
在DeepSeek-V3.2技术报告中,它已经把开放模型面临的关键瓶颈讲得很直接:长上下文处理效率不足,后训练计算投入不够,智能体任务中的泛化能力和指令遵循能力仍然存在短板。
这几个问题,正好对应当下前沿模型竞争的核心战场。
第一是长上下文。模型不只是要“能读很长”,还要在很长的上下文里准确抓住关键线索,避免注意力浪费,降低推理成本。标准注意力机制在长序列任务上天然成本高,谁能把长上下文做得又便宜又稳定,谁就更接近企业级应用的真实需求。
第二是后训练。现在前沿模型的能力提升,很大一部分来自预训练之后的强化学习、偏好优化、任务合成和复杂评测。尤其是推理模型和智能体模型,后训练投入往往决定了模型能不能真正解决复杂问题。开放模型如果后训练算力不够,就容易出现“基础能力不错,但高难任务不稳”的问题。
第三是智能体能力。未来模型不只是聊天工具,而是能替人完成任务的系统。它需要理解目标、调用工具、拆分步骤、验证结果、修正错误。这类能力特别依赖真实任务数据和复杂环境训练。闭源模型背后有大量产品场景和企业应用反馈,开放模型在这一点上天然吃亏。
所以,DeepSeek-R1的意义不是证明开源已经追平闭源,而是证明开放路线有能力在某个关键时点打出一次漂亮的技术突破。
但下一次突破会更难。
因为前沿竞争已经从“做出一个强模型”,变成“持续运营一个强模型系统”。这两者不是一个难度。
前者考验研究能力、工程效率和训练策略。后者还要考验资金、算力、产品、客户、数据、组织能力和商业化闭环。
这也是为什么Epoch的数据看起来只是从3个月变成4个月,背后却是AI产业竞争逻辑的变化。时间差并不大,但方向值得警惕:闭源厂商并没有被开源浪潮拖慢,反而正在利用更强的资源禀赋,把优势重新转化为系统性壁垒。
03:开源没有输,但它需要重新定义胜利
不过,把这件事简单写成“开源模型追不上了”,也不准确。
开放权重模型的价值从来不只是冲击最强榜单。它真正不可替代的地方,在于可部署、可定制、可审计、可控成本,以及对本地化应用生态的支撑。
对很多企业来说,最强模型未必是最合适的模型。金融、政务、医疗、工业、法律等场景,对数据安全、私有化部署、成本控制和可解释性有更高要求。这些场景不一定愿意把核心数据放进闭源模型的云端接口里。开放权重模型即便不是全球第一,也可能是更现实的选择。
而且,从价格和性能比看,开放模型仍然很有竞争力。一些开放权重模型已经能用更低成本完成大量通用任务。对开发者和中小企业来说,这种能力足够重要。不是所有应用都需要GPT-5.5或Claude最顶级版本。大量场景真正需要的是稳定、便宜、可控、能接入业务系统。
这意味着,开源不会消失,也不会边缘化。
但它的叙事可能要变。
过去市场期待开源模型“全面追平闭源”。这个预期太高,也太线性。更现实的判断是:开放模型会在大量应用层面持续繁荣,在本地部署、行业微调、成本效率和开发者生态上形成优势;但在最前沿的通用智能、复杂推理和长程智能体任务上,闭源模型仍可能保持阶段性领先。
开源模型下一步真正需要的,不是再做一个“闭源平替”,而是找到新的突破口。
比如更高效的架构,更低成本的长上下文机制,更强的后训练方法,更开放的智能体数据生成体系,更适合行业部署的模型工程方案。只有这些底层能力发生变化,开放模型才可能再次把差距压回去。
否则,4个月的差距可能只是开始。
这也是这份Epoch报告对行业最大的提醒:AI前沿竞争正在进入资本密集、算力密集、数据密集和工程密集阶段。社区热情仍然重要,但它很难单独对抗一整套闭源工业体系。
DeepSeek-R1证明过,开放路线可以震动世界。
但下一个DeepSeek,不能只靠惊艳。
它需要的不再是一次漂亮的发布,而是一套能持续进化的系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.