开源模型追不上闭源了？|调用|智能体|预训练|上下文

开源模型追不上闭源了？

2026-05-31 02:23:17　来源: 高恒说

北京举报

分享至

开源大模型最热闹的时候，市场曾经相信一件事：只要模型权重放出来，只要社区足够活跃，只要有一个DeepSeek式的突破，闭源模型的领先优势迟早会被抹平。

但Epoch AI最新发布的一组数据，把这个叙事往回拽了一下。

这家专注人工智能基准测试与模型能力研究的非营利机构，在5月29日发布的Data Insight中重新审视了开放权重模型与闭源前沿模型之间的能力差距。结论并不乐观：自2026年初以来，开放权重模型相对最强闭源模型，平均落后约4个月。

这比Epoch此前统计的3个月差距，略有扩大。

更重要的是，这个“4个月”不是简单的发布时间差。Epoch用的是自己的综合能力指标ECI，也就是Epoch Capabilities Index。按它的估算，2026年以来，开放权重模型与闭源前沿模型之间平均相差约8个ECI点，大致相当于GPT-5与GPT-5.5之间的能力差距。

换句话说，问题不是“开源模型有没有进步”。它当然在进步，而且进步很快。真正的问题是，闭源模型也在加速，而且加速的方向越来越不是靠外部社区能够轻易复制的。

这也是这份报告真正值得讨论的地方。

过去一年，市场对开源模型的信心很大程度来自DeepSeek-R1。2025年1月，DeepSeek-R1发布后，确实一度改写了市场情绪。它用相对低成本的训练路径，在推理能力上逼近当时最强闭源模型，让外界第一次强烈感受到：中国公司、开放模型、低成本路线，也可以冲到前沿牌桌。

但从Epoch的图表看，DeepSeek-R1更像是一次短暂收敛，而不是趋势逆转。2024年三季度，开放权重模型与闭源模型一度非常接近；DeepSeek-R1发布后，差距也曾被压缩。但进入2026年后，差距没有继续缩小，反而重新拉开。

这说明一个事实：开源模型可以靠单点突破惊艳市场，但要持续站在前沿，需要的是另一套东西。

01:差距扩大的不是模型参数，而是系统能力

今天的大模型竞争，已经不再是“谁的参数更多”“谁的预训练语料更大”这么简单。

在早期阶段，开放模型追赶闭源模型的路径相对清晰：更大的模型、更好的预训练数据、更便宜的推理成本、更高效的训练框架。社区能够复现论文，企业能够开放权重，开发者能够微调部署，差距自然会被快速压缩。

但到了GPT、Claude、Gemini这一代前沿模型，竞争重心变了。

真正决定体验差距的，不只是基础模型本身，而是后训练、强化学习、长上下文处理、工具调用、代码环境、智能体任务、多轮反馈和产品数据闭环。这些东西不再只是“模型权重”能解释的能力，而是一整套工程体系。

这也是为什么用户会明显感受到，很多开放模型在普通问答、翻译、总结、轻量代码上已经很好用，但一旦进入复杂任务，比如长文档推理、跨工具协作、自动写代码并调试、拆解商业问题、持续多轮执行任务，闭源模型仍然更稳。

差距不一定体现在单个榜单分数上，而是体现在真实工作流里。

一个模型能不能连续跑一个小时不跑偏？能不能调用工具后理解返回结果？能不能在复杂代码库里找到问题？能不能在多步骤任务中记住目标、修正错误、避免幻觉？这些能力背后，不是简单堆参数，而是大量高质量任务数据、训练基础设施、自动评测系统、人工反馈体系和产品端用户行为数据。

这正是闭源厂商的优势区。

OpenAI、Anthropic、Google这些公司不只是模型公司，它们更像是AI系统工程公司。它们拥有持续的算力投入、海量用户反馈、企业客户场景、产品化闭环和更强的后训练能力。模型每一次上线，都能从真实使用中拿到数据，再反哺下一轮训练。

开放权重模型当然也能做后训练，但它面对的现实更复杂：算力不稳定，数据不完整，商业化回报周期更长，社区贡献高度分散，很多关键工程细节无法公开复用。

所以，开源和闭源之间的差距，本质上不是“聪明程度”的差距，而是持续投入能力的差距。

02:DeepSeek已经提前说出了问题

其实，DeepSeek自己也很清楚这个变化。

在DeepSeek-V3.2技术报告中，它已经把开放模型面临的关键瓶颈讲得很直接：长上下文处理效率不足，后训练计算投入不够，智能体任务中的泛化能力和指令遵循能力仍然存在短板。

这几个问题，正好对应当下前沿模型竞争的核心战场。

第一是长上下文。模型不只是要“能读很长”，还要在很长的上下文里准确抓住关键线索，避免注意力浪费，降低推理成本。标准注意力机制在长序列任务上天然成本高，谁能把长上下文做得又便宜又稳定，谁就更接近企业级应用的真实需求。

第二是后训练。现在前沿模型的能力提升，很大一部分来自预训练之后的强化学习、偏好优化、任务合成和复杂评测。尤其是推理模型和智能体模型，后训练投入往往决定了模型能不能真正解决复杂问题。开放模型如果后训练算力不够，就容易出现“基础能力不错，但高难任务不稳”的问题。

第三是智能体能力。未来模型不只是聊天工具，而是能替人完成任务的系统。它需要理解目标、调用工具、拆分步骤、验证结果、修正错误。这类能力特别依赖真实任务数据和复杂环境训练。闭源模型背后有大量产品场景和企业应用反馈，开放模型在这一点上天然吃亏。

所以，DeepSeek-R1的意义不是证明开源已经追平闭源，而是证明开放路线有能力在某个关键时点打出一次漂亮的技术突破。

但下一次突破会更难。

因为前沿竞争已经从“做出一个强模型”，变成“持续运营一个强模型系统”。这两者不是一个难度。

前者考验研究能力、工程效率和训练策略。后者还要考验资金、算力、产品、客户、数据、组织能力和商业化闭环。

这也是为什么Epoch的数据看起来只是从3个月变成4个月，背后却是AI产业竞争逻辑的变化。时间差并不大，但方向值得警惕：闭源厂商并没有被开源浪潮拖慢，反而正在利用更强的资源禀赋，把优势重新转化为系统性壁垒。

03:开源没有输，但它需要重新定义胜利

不过，把这件事简单写成“开源模型追不上了”，也不准确。

开放权重模型的价值从来不只是冲击最强榜单。它真正不可替代的地方，在于可部署、可定制、可审计、可控成本，以及对本地化应用生态的支撑。

对很多企业来说，最强模型未必是最合适的模型。金融、政务、医疗、工业、法律等场景，对数据安全、私有化部署、成本控制和可解释性有更高要求。这些场景不一定愿意把核心数据放进闭源模型的云端接口里。开放权重模型即便不是全球第一，也可能是更现实的选择。

而且，从价格和性能比看，开放模型仍然很有竞争力。一些开放权重模型已经能用更低成本完成大量通用任务。对开发者和中小企业来说，这种能力足够重要。不是所有应用都需要GPT-5.5或Claude最顶级版本。大量场景真正需要的是稳定、便宜、可控、能接入业务系统。

这意味着，开源不会消失，也不会边缘化。

但它的叙事可能要变。

过去市场期待开源模型“全面追平闭源”。这个预期太高，也太线性。更现实的判断是：开放模型会在大量应用层面持续繁荣，在本地部署、行业微调、成本效率和开发者生态上形成优势；但在最前沿的通用智能、复杂推理和长程智能体任务上，闭源模型仍可能保持阶段性领先。

开源模型下一步真正需要的，不是再做一个“闭源平替”，而是找到新的突破口。

比如更高效的架构，更低成本的长上下文机制，更强的后训练方法，更开放的智能体数据生成体系，更适合行业部署的模型工程方案。只有这些底层能力发生变化，开放模型才可能再次把差距压回去。

否则，4个月的差距可能只是开始。

这也是这份Epoch报告对行业最大的提醒：AI前沿竞争正在进入资本密集、算力密集、数据密集和工程密集阶段。社区热情仍然重要，但它很难单独对抗一整套闭源工业体系。

DeepSeek-R1证明过，开放路线可以震动世界。

但下一个DeepSeek，不能只靠惊艳。

它需要的不再是一次漂亮的发布，而是一套能持续进化的系统。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

开源模型追不上闭源了？

戴尔诺基亚又回来了！AI重估老牌科技公司

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

阿森纳用最悲壮的方式，成就了巴黎王朝

朱军退休，正义虽迟但到，女方受惩

医学首席转岗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

青少年哪个品牌DHA好？藻油组合易吸收，纯净配方无负担，学习状态更稳定

LCK第二赛段：HLE连下两城击溃BRO，排行榜第一，进军季后赛

梓渝：慢下来，也很好

事关所有高考生！2026高考或将出现3个重大变化！家长考生了解

解放军代表质问日防卫大臣:日本何时道歉

保时捷一天两次被钉子扎路面现多个修车广告报价上千

保时捷一天两次被钉子扎路面现多个修车广告报价上千

900V+3.2秒破百领克10+&领克10上市16.99万元起