网易首页 > 网易号 > 正文 申请入驻

开源模型追不上闭源了?

0
分享至



开源大模型最热闹的时候,市场曾经相信一件事:只要模型权重放出来,只要社区足够活跃,只要有一个DeepSeek式的突破,闭源模型的领先优势迟早会被抹平。

但Epoch AI最新发布的一组数据,把这个叙事往回拽了一下。

这家专注人工智能基准测试与模型能力研究的非营利机构,在5月29日发布的Data Insight中重新审视了开放权重模型与闭源前沿模型之间的能力差距。结论并不乐观:自2026年初以来,开放权重模型相对最强闭源模型,平均落后约4个月。

这比Epoch此前统计的3个月差距,略有扩大。

更重要的是,这个“4个月”不是简单的发布时间差。Epoch用的是自己的综合能力指标ECI,也就是Epoch Capabilities Index。按它的估算,2026年以来,开放权重模型与闭源前沿模型之间平均相差约8个ECI点,大致相当于GPT-5与GPT-5.5之间的能力差距。

换句话说,问题不是“开源模型有没有进步”。它当然在进步,而且进步很快。真正的问题是,闭源模型也在加速,而且加速的方向越来越不是靠外部社区能够轻易复制的。

这也是这份报告真正值得讨论的地方。

过去一年,市场对开源模型的信心很大程度来自DeepSeek-R1。2025年1月,DeepSeek-R1发布后,确实一度改写了市场情绪。它用相对低成本的训练路径,在推理能力上逼近当时最强闭源模型,让外界第一次强烈感受到:中国公司、开放模型、低成本路线,也可以冲到前沿牌桌。

但从Epoch的图表看,DeepSeek-R1更像是一次短暂收敛,而不是趋势逆转。2024年三季度,开放权重模型与闭源模型一度非常接近;DeepSeek-R1发布后,差距也曾被压缩。但进入2026年后,差距没有继续缩小,反而重新拉开。

这说明一个事实:开源模型可以靠单点突破惊艳市场,但要持续站在前沿,需要的是另一套东西。

01:差距扩大的不是模型参数,而是系统能力

今天的大模型竞争,已经不再是“谁的参数更多”“谁的预训练语料更大”这么简单。

在早期阶段,开放模型追赶闭源模型的路径相对清晰:更大的模型、更好的预训练数据、更便宜的推理成本、更高效的训练框架。社区能够复现论文,企业能够开放权重,开发者能够微调部署,差距自然会被快速压缩。

但到了GPT、Claude、Gemini这一代前沿模型,竞争重心变了。

真正决定体验差距的,不只是基础模型本身,而是后训练、强化学习、长上下文处理、工具调用、代码环境、智能体任务、多轮反馈和产品数据闭环。这些东西不再只是“模型权重”能解释的能力,而是一整套工程体系。

这也是为什么用户会明显感受到,很多开放模型在普通问答、翻译、总结、轻量代码上已经很好用,但一旦进入复杂任务,比如长文档推理、跨工具协作、自动写代码并调试、拆解商业问题、持续多轮执行任务,闭源模型仍然更稳。

差距不一定体现在单个榜单分数上,而是体现在真实工作流里。

一个模型能不能连续跑一个小时不跑偏?能不能调用工具后理解返回结果?能不能在复杂代码库里找到问题?能不能在多步骤任务中记住目标、修正错误、避免幻觉?这些能力背后,不是简单堆参数,而是大量高质量任务数据、训练基础设施、自动评测系统、人工反馈体系和产品端用户行为数据。

这正是闭源厂商的优势区。

OpenAI、Anthropic、Google这些公司不只是模型公司,它们更像是AI系统工程公司。它们拥有持续的算力投入、海量用户反馈、企业客户场景、产品化闭环和更强的后训练能力。模型每一次上线,都能从真实使用中拿到数据,再反哺下一轮训练。

开放权重模型当然也能做后训练,但它面对的现实更复杂:算力不稳定,数据不完整,商业化回报周期更长,社区贡献高度分散,很多关键工程细节无法公开复用。

所以,开源和闭源之间的差距,本质上不是“聪明程度”的差距,而是持续投入能力的差距。

02:DeepSeek已经提前说出了问题

其实,DeepSeek自己也很清楚这个变化。

在DeepSeek-V3.2技术报告中,它已经把开放模型面临的关键瓶颈讲得很直接:长上下文处理效率不足,后训练计算投入不够,智能体任务中的泛化能力和指令遵循能力仍然存在短板。

这几个问题,正好对应当下前沿模型竞争的核心战场。

第一是长上下文。模型不只是要“能读很长”,还要在很长的上下文里准确抓住关键线索,避免注意力浪费,降低推理成本。标准注意力机制在长序列任务上天然成本高,谁能把长上下文做得又便宜又稳定,谁就更接近企业级应用的真实需求。

第二是后训练。现在前沿模型的能力提升,很大一部分来自预训练之后的强化学习、偏好优化、任务合成和复杂评测。尤其是推理模型和智能体模型,后训练投入往往决定了模型能不能真正解决复杂问题。开放模型如果后训练算力不够,就容易出现“基础能力不错,但高难任务不稳”的问题。

第三是智能体能力。未来模型不只是聊天工具,而是能替人完成任务的系统。它需要理解目标、调用工具、拆分步骤、验证结果、修正错误。这类能力特别依赖真实任务数据和复杂环境训练。闭源模型背后有大量产品场景和企业应用反馈,开放模型在这一点上天然吃亏。

所以,DeepSeek-R1的意义不是证明开源已经追平闭源,而是证明开放路线有能力在某个关键时点打出一次漂亮的技术突破。

但下一次突破会更难。

因为前沿竞争已经从“做出一个强模型”,变成“持续运营一个强模型系统”。这两者不是一个难度。

前者考验研究能力、工程效率和训练策略。后者还要考验资金、算力、产品、客户、数据、组织能力和商业化闭环。

这也是为什么Epoch的数据看起来只是从3个月变成4个月,背后却是AI产业竞争逻辑的变化。时间差并不大,但方向值得警惕:闭源厂商并没有被开源浪潮拖慢,反而正在利用更强的资源禀赋,把优势重新转化为系统性壁垒。

03:开源没有输,但它需要重新定义胜利

不过,把这件事简单写成“开源模型追不上了”,也不准确。

开放权重模型的价值从来不只是冲击最强榜单。它真正不可替代的地方,在于可部署、可定制、可审计、可控成本,以及对本地化应用生态的支撑。

对很多企业来说,最强模型未必是最合适的模型。金融、政务、医疗、工业、法律等场景,对数据安全、私有化部署、成本控制和可解释性有更高要求。这些场景不一定愿意把核心数据放进闭源模型的云端接口里。开放权重模型即便不是全球第一,也可能是更现实的选择。

而且,从价格和性能比看,开放模型仍然很有竞争力。一些开放权重模型已经能用更低成本完成大量通用任务。对开发者和中小企业来说,这种能力足够重要。不是所有应用都需要GPT-5.5或Claude最顶级版本。大量场景真正需要的是稳定、便宜、可控、能接入业务系统。

这意味着,开源不会消失,也不会边缘化。

但它的叙事可能要变。

过去市场期待开源模型“全面追平闭源”。这个预期太高,也太线性。更现实的判断是:开放模型会在大量应用层面持续繁荣,在本地部署、行业微调、成本效率和开发者生态上形成优势;但在最前沿的通用智能、复杂推理和长程智能体任务上,闭源模型仍可能保持阶段性领先。

开源模型下一步真正需要的,不是再做一个“闭源平替”,而是找到新的突破口。

比如更高效的架构,更低成本的长上下文机制,更强的后训练方法,更开放的智能体数据生成体系,更适合行业部署的模型工程方案。只有这些底层能力发生变化,开放模型才可能再次把差距压回去。

否则,4个月的差距可能只是开始。

这也是这份Epoch报告对行业最大的提醒:AI前沿竞争正在进入资本密集、算力密集、数据密集和工程密集阶段。社区热情仍然重要,但它很难单独对抗一整套闭源工业体系。

DeepSeek-R1证明过,开放路线可以震动世界。

但下一个DeepSeek,不能只靠惊艳。

它需要的不再是一次漂亮的发布,而是一套能持续进化的系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比泉州安静,比厦门温柔,闽南最松弛的魂在这里!

比泉州安静,比厦门温柔,闽南最松弛的魂在这里!

九行Travel
2026-05-27 18:27:21
“加名字”失败,被从肯尼迪中心“除名”,特朗普表示“震惊”

“加名字”失败,被从肯尼迪中心“除名”,特朗普表示“震惊”

每日经济新闻
2026-05-31 21:56:42
专家集体炮轰:新能源车再这么“超重”下去,真要出问题了

专家集体炮轰:新能源车再这么“超重”下去,真要出问题了

科技专家
2026-05-31 15:54:09
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
359降到168元,小米这吸尘器轻到离谱

359降到168元,小米这吸尘器轻到离谱

码上闲叙
2026-05-31 21:48:34
广州楼市开始离谱了!天河珠江新城板块房价从12.5万变成7.9万

广州楼市开始离谱了!天河珠江新城板块房价从12.5万变成7.9万

林子说事
2026-05-31 01:00:10
沙滩上的绝美女神

沙滩上的绝美女神

疾跑的小蜗牛
2026-05-29 21:33:27
他曾是TVB视帝,33岁中风瘫痪,70岁患血管病,至今仍为生计奔波

他曾是TVB视帝,33岁中风瘫痪,70岁患血管病,至今仍为生计奔波

不似少年游
2026-05-31 14:39:53
女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

小谈食刻美食
2026-05-12 07:59:18
研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

健康之光
2026-05-30 17:59:58
一次扣9分!全国执行!新规明天实施

一次扣9分!全国执行!新规明天实施

生活小ok
2026-05-31 09:19:29
法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

侧身凌空斩
2026-05-31 02:25:54
50岁女子在美容店打除皱针半月后死亡,老板曾称“加量打的” 家属索赔121万元,判了

50岁女子在美容店打除皱针半月后死亡,老板曾称“加量打的” 家属索赔121万元,判了

红星新闻
2026-05-31 16:14:28
399元起,徕芬手持折叠小风扇AirFold开售

399元起,徕芬手持折叠小风扇AirFold开售

IT之家
2026-05-31 19:37:15
“暴力丑学”,正批量毁掉中国景区

“暴力丑学”,正批量毁掉中国景区

一刻talks丨硬科技趣思想
2026-05-27 21:07:13
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2026-05-31 09:34:11
中国又一行业全球爆单,订单排到2027年以后

中国又一行业全球爆单,订单排到2027年以后

牛锅巴小钒
2026-05-31 03:20:23
作为一个从没有罚丢过点球的业余球员阿森纳那两个罚...

作为一个从没有罚丢过点球的业余球员阿森纳那两个罚...

绿茵情报局
2026-05-31 03:45:46
把泽卡踢进医院:不道歉,不谢场!鲁媒:这是砸人饭碗

把泽卡踢进医院:不道歉,不谢场!鲁媒:这是砸人饭碗

建哥说体育
2026-05-31 08:14:11
6月“金股”出炉 这些股票被看好!

6月“金股”出炉 这些股票被看好!

中国经济网
2026-05-31 10:00:05
2026-05-31 22:27:00
高恒说 incentive-icons
高恒说
资深财经媒体人 36氪特邀作者、大象新闻签约作者 中国科技新闻学会科幻传播与未来产业专委会专家
360文章数 1061关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
游戏
时尚
教育
军事航空

亲子要闻

青少年哪个品牌DHA好?藻油组合易吸收,纯净配方无负担,学习状态更稳定

LCK第二赛段:HLE连下两城击溃BRO,排行榜第一,进军季后赛

梓渝:慢下来,也很好

教育要闻

事关所有高考生!2026高考或将出现3个重大变化!家长考生了解

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版